La fortuna del sorteggio: Roland Garros 2019 (uomini)

di Chapel Heel // HiddenGameOfTennis

Pubblicato il 3 giugno 2019 – Traduzione di Edoardo Salvati

Come d’abitudine per gli Slam, ho eseguito una simulazione (con la mia variante Elo) di 100.000 configurazioni del tabellone principale, utilizzando lo stesso metodo che assegna ai giocatori la loro posizione in quello ufficiale. L’ho poi confrontata con la previsione per il torneo su base Elo rispetto al tabellone effettivo.

La trasferta al Roland Garros mi ha impedito di procedere prima con quest’analisi. Mi dispiace riuscire a farlo solo a pochi giorni dalla conclusione del torneo.

Come per le donne, anche in questo caso viene messa a confronto la previsione effettiva del tabellone con i risultati dalle simulazioni di rimescolamento, in modo da avere alcune indicazioni sull’accessibilità del tabellone effettivo rispetto alle altre configurazioni. Tonalità di rosso (e arancione) evidenziano la sfortuna del giocatore. Al contrario, tonalità di verde rappresentano la fortuna ricevuta nel tabellone effettivo, in riferimento a un particolare turno. Il giallo simboleggia neutralità, e si può di fatto ignorare qualsiasi valore superiore o inferiore all’1%.

Si è detto molto, a tabellone completo, del facile cammino di Rafael Nadal verso il dodicesimo titolo, ma come al solito si è anche esagerato. La differenza tra quella effettiva e centomila altre possibili versioni rientra nel margine di errore. In realtà è più semplice il percorso di Novak Djokovic, sempre relativamente ad altri scenari, anche se non in modo significativo.

Mi sorprende invece l’esito legato a Roger Federer che, tra i giocatori di vertice, è quello a subire la sorte peggiore. Se si riferisse alla sola finale e alle possibilità di vittoria lo capirei, perché dopotutto si è trovato dal lato di Nadal. E questo è di per sé peggiorativo per chiunque aspiri al trofeo. Ma il suo tabellone è leggermente più difficile già per arrivare ai quarti e alla semifinale. Temo che dipenda in larga parte dalla presenza di Matteo Berrettini e Diego Schwartzman, entrambi con solide valutazioni Elo specifiche per la terra, anche se in pochi li considererebbero una minaccia reale (hanno perso infatti al secondo turno, n.d.t.)

Dominano le prime cinque teste di serie

Ammetto di aver pensato che il tabellone di Dominic Thiem fosse il più complicato tra le prime quattro teste di serie. In questa simulazione ha invece il migliore, in parte perché ha evitato il quarto di Nadal. E questo illustra (secondo me) uno dei problemi attuali del tennis maschile: è difficile trovare un giocatore qualsiasi fuori dalle prime cinque teste di serie che abbia anche la minima possibilità di vincere uno Slam. Nelle mie previsioni con valutazioni Elo, i primi cinque raggiungono in aggregato l’84.4% di probabilità di vittoria. È per questo che, onestamente, il loro cammino sembra sempre facile quando si guarda il tabellone da vicino.

Luck of the Draw: Roland Garros 2019 (Men)

La fortuna del sorteggio: Roland Garros 2019 (donne)

di Chapel Heel // HiddenGameOfTennis

Pubblicato il 3 giugno 2019 – Traduzione di Edoardo Salvati

Negli ultimi due anni, ho eseguito simulazioni di variazioni del tabellone principale per gli Slam maschili per verificare quanto un giocatore sia stato fortunato o sfortunato nel tabellone effettivo, rispetto ad altre 100.000 possibili configurazioni dello stesso. È la prima volta che applico l‘analisi al tabellone femminile.

Viene messa a confronto la previsione effettiva del tabellone con i risultati dalle simulazioni di rimescolamento, in modo da avere alcune indicazioni sull’accessibilità del tabellone effettivo rispetto alle altre configurazioni. Tonalità di rosso (e arancione) evidenziano la sfortuna della giocatrice. Al contrario, tonalità di verde rappresentano la fortuna ricevuta nel tabellone effettivo, in riferimento a un particolare turno. Il giallo simboleggia neutralità, e si può di fatto ignorare qualsiasi valore superiore o inferiore all’1%.

Osaka e Serena, sorte opposta

A differenza del tabellone maschile, nel quale cinque giocatori hanno più dell’84% di probabilità aggregata di vittoria finale, in campo femminile la situazione è molto più aperta.

Mi interessava vedere due aspetti. Un rimescolamento del tabellone avrebbe mostrato maggiore variazione tra quelli effettivi e le nuove configurazioni? Non avendo le giocatrici di “vertice” una vittoria attesa così alta in termini di probabilità, si possono esporre più facilmente a una sconfitta a sorpresa, o a un percorso più semplice.

Viceversa, ci sarebbe stata molta meno variazione? In presenza di maggiore equiparazione tra le giocatrici, il rimescolamento del tabellone ha conseguenze minori, con peso inferiore legato al nome dell’avversaria.

A quanto pare è più probabile la prima ipotesi, ma certamente non siamo nel caos totale. L’incidenza è all’incirca sullo stesso numero di giocatrici di quanto emerso dal confronto per il tabellone maschile, anche se in questo caso la variazione percentuale è più marcata.

È andata peggio a Naomi Osaka (e anche Elina Svitolina non è stata fortunata), mentre Serena Williams ha avuto il tabellone più facile (presumendo però di avere una Williams in forma e non una Williams che non ha avuto grandi possibilità di giocare a livello competitivo quest’anno). In ogni caso, tutte e tre hanno perso prima dei quarti di finale.

Luck of the Draw: Roland Garros 2019 (Women)

La crescita da professioniste delle vincitrici di Slam juniores

di Chapel Heel // HiddenGameOfTennis

Pubblicato il 21 aprile 2019 – Traduzione di Edoardo Salvati

In un precedente articolo, ho affrontato la durata della crescita dei vincitori di prove Slam juniores una volta passati al professionismo. È il momento delle vincitrici, in particolare di tutte quelle che dal 1990 hanno vinto almeno uno Slam juniores, e del loro avanzamento nel raggiungere determinati traguardi da professioniste. Si tratta di 99 giocatrici in 117 prove di Slam juniores.

Vinco ora, vinco anche dopo

La semplice tabella che segue mostra l’età media della vincitrice juniores per i quattro tornei, il numero di tornei di singolare vinti sul circuito maggiore, i Premier vinti, gli Slam vinti (al momento) e la mediana dei guadagni in carriera (compreso il doppio, i Challenger, etc).

I guadagni in carriera tengono conto dell’inflazione. Mi interessava solo un’approssimazione, quindi ho usato l’indice dei prezzi al consumo deli Stati Uniti, anche se la maggior parte delle giocatrici non è americana. Inoltre, per evitare eccessive complicazioni, ho rapportato i valori all’anno a metà della carriera di una giocatrice (ad esempio, ai fini dell’analisi Victoria Azarenka ha giocato dal 2003 al 2019 e l’indice dei prezzi al consumo è quello del 2011). Ho preso la mediana perché la media avrebbe confuso le idee: in particolare Azarenka, Martina Hingis e Agnieszka Radwanska hanno vinto molti più premi partita e tornei delle altre vincitrici juniores.

Da ultimo, il numero in fondo alla colonna “Mediana $$” rappresenta la mediana dei guadagni di tutti le giocatrici nei quattro Slam juniores, avendo tolto le vincitrici multiple, vale a dire che non è la media o la mediana delle mediane nella colonna. Lo stesso è per il corrispettivo valore nella colonna “Mediana Classifica Massima”. Inoltre, come ho spiegato in un altro articolo, è molto difficile stabilire quale torneo possa rientrare nella categoria Premier di quelli precedenti alla ridefinizione (relativamente recente) della struttura dei tornei della WTA.

Numeri migliori degli uomini

Vale la pena sottolineare che l’età media delle vincitrici è di ben un anno inferiore a quella dei vincitori. Complessivamente, le vincitrici hanno anche medie e mediane migliori dei vincitori, con 121 titoli in più vinti, 8 Slam in più, circa un milione di dollari in più in guadagni mediani e una mediana della classifica massima migliore di 24 posizioni rispetto ai vincitori di Slam juniores.

In aggregato, si potrebbe pensare che la vincitrice di uno Slam juniores vincerà poi 6 o 7 tornei sul circuito maggiore (655 diviso 99), con un 50% di probabilità di vincere un evento Premier. Così non è naturalmente. Hingis, Justine Henin e Lindsay Davenport hanno vinto 141 di quei 655 titoli, quasi la metà dei Premier e quasi la metà degli Slam. Tuttavia, a differenza dei vincitori in cui meno della metà ha vinto anche un solo torneo del circuito maggiore, tra le vincitrici il 60% ha vinto un torneo WTA.

Sapere quando ritirarsi

La mediana dei guadagni di circa 2.2 milioni di dollari è molto più alta di quanto visto per i vincitori juniores i quali hanno una carriera tra i professionisti di circa dieci anni dalla vittoria dello Slam, riuscendo a malapena a vivere dei premi partita, visti gli ingenti costi annuali. Dopo aver escluso i guadagni estremi di Federer, Murray, Wawrinka, Marin Cilic e Andy Roddick, e calcolato la media e la deviazione standard dei guadagni in carriera dei rimanenti giocatori, un campione di Slam juniores ha una probabilità del 24% di guadagnare non più di 250.000 dollari in carriera…prima delle spese.

Replicare la stessa metodologia in campo femminile è marcatamente più complesso. In primo luogo, i casi estremi sono molto rari. Più di una dozzina delle 99 vincitrici del campione considerato hanno guadagnato 15 milioni di dollari (tenendo conto dell’inflazione). Altrettanto importante, le vincitrici sanno quando è arrivato il momento di ritirarsi. Dei vincitori e vincitrici juniores che non sono più in attività, l’età media a cui le vincitrici si sono ritirate è di quattro interi anni più bassa di quella dei vincitori.

Risalire la classifica

La tabella che segue mostra la percentuale di giocatrici che raggiungono determinati traguardi una volta diventate professioniste. Le prime colonne si riferiscono a traguardi in termini di classifica, le ultime due a titoli sul circuito maggiore e Slam.

Ci sono 50 percentuali e, nel confronto con la versione maschile, le vincitrici ottengono un record di 47-1-2 (vittorie, pareggi, sconfitte). Il vincitore degli US Open juniores ha il 10% di probabilità di arrivare al numero 1 della classifica, contro il 6.7% delle vincitrici, ma è di poca importanza. Si parla infatti di tre juniores uomini contro due donne. Le due percentuali di pareggio si riferiscono al raggiungimento del numero 1 e alla vittoria di uno Slam dopo aver vinto gli Australian Open juniores, entrambe prive di importanza.

Sembra quindi che, rispetto ai vincitori, una campionessa Slam juniores abbia molte più probabilità di una solida carriera. Tralasciando le categorie con campioni ridotti (in particolare il numero 1 e le vittorie negli Slam), le vincitrici hanno il 50% di probabilità in più dei vincitori di entrare tra le prime 50 e tra le prime 20, e il 33% in più di vincere un torneo di singolare del circuito maggiore. Vale la pena riflettere su questi numeri. Se la tendenza storica si mantiene tale, la vincitrice di una prova Slam juniores ha circa il 50% di probabilità di entrare tra le prime 20, più di una probabilità su quattro di entrare tra le prime 10 e quasi una su cinque tra le prime 5. Se ne deduce quindi che la ricerca di una futura promessa tra le vincitrici di Slam juniores è più redditizia che tra i vincitori.

Appunti relativi allo specifico torneo

Delle brevi considerazioni a margine.

Australian Open

Come per i vincitori, le vincitrici di Australian Open juniores ottengono meno successo delle vincitrici degli altri tre Slam juniores

Roland Garros

Nessun vincitore del Roland Garros juniores dal 1990 al 2018 è arrivato al numero 1 della classifica mondiale. Per contro, ci sono più vincitrici del Roland Garros juniores che hanno raggiunto il numero 1 – ben 5 – di qualsiasi degli altri Slam juniores. La mediana del picco massimo di classifica delle vincitrici del Roland Garros juniores è di 14!

Halep

Tra le campionesse juniores dal 2007 (in qualsiasi dei quattro tornei), Halep è l’unica vincitrice di uno Slam da professionista

Vincitrici multiple

Ci sono 15 vincitrici multiple di Slam juniores.

Al pari dei vincitori, anche le vincitrici juniores hanno raggiunto buoni risultati. La mediana dei guadagni è notevolmente più bassa di quella maschile, in parte dovuta alla disparità di premi partita. La mediana di classifica massima dei vincitori è di quattro posizioni peggiore rispetto a quella delle vincitrici. Le vincitrici multiple hanno 47 titoli in più e 8 Slam in più rispetto ai vincitori. Come per i vincitori, i guadagni includono anche i premi del doppio, ma non le altre colonne.

Vincere tre volte è meglio di due? Con soli due vincitori di tre Slam a testa, Gael Monfils (ottima carriera) e Daniel Elsner (di cui non avevo mai sentito parlare), non si sono potute trarre grandi conclusioni. Tra le donne, abbiamo Magdalena Maleeva (ottima carriera), Hingis (nella Hall of Fame) e Anastasia Pavlyuchenkova (ottima carriera).

Durata della crescita

Siamo in grado di calcolare la probabilità con cui le vincitrici di Slam juniores raggiungono determinati traguardi da professioniste, ma non la velocità con cui lo fanno (se mai ci riescono). Ho misurato il tempo trascorso in mesi (arrotondato) tra la data della vittoria di uno Slam juniores per una giocatrice e il raggiungimento di quei traguardi. Il grafico dell’immagine 1 mostra le curve per ciascun torneo con il numero di mesi sull’asse delle ordinate.

IMMAGINE 1 – Durata della crescita (in mesi)

Un numero importante di campionesse juniores erano già tra le prime 200 al momento della vittoria di uno Slam juniores. Inoltre, Angelique Widjaja ha vinto il titolo al Roland Garros con una classifica tra le prime 125 e avendo già un trofeo sul circuito maggiore!

Minore variazione ma più tempo per entrare nelle prime 20

Si assiste anche a una variazione minore tra gli Slam juniores femminili rispetto a quelli maschili: le quattro curve del grafico seguono un andamento ragionevolmente simile. Le curve dei vincitori erano anche più piatte, con una progressione più stabile verso il vertice. Le vincitrici invece passano più velocemente da un livello al successivo, fino alle prime 50. Per passare però poi alle prime 20, la fase di attesa è più lunga di quanto si verifica tra i vincitori, da cui l’andamento più verticale delle curve per quella sezione del grafico.

In media, servono due anni e tre mesi dalle prime 50 alle prime 20, cioè quasi un anno di più dei vincitori che sono arrivati fino a quelle posizioni. D’altro canto, le vincitrici raggiungono il primo titolo quasi otto mesi prima e chi riesce ad arrivare nelle prime 5 lo fa in media 18 mesi prima dei vincitori di Slam juniores.

Aggregando i dati dei quattro Slam juniores femminili per ognuno dei traguardi citati, oltre al primo “vero” Slam raggiunto, otteniamo il grafico a scatola dell’immagine 2. L’asse delle ordinate riporta il numero di mesi. Il colore verde rappresenta il terzo quartile e il blu il secondo quartile. Visto che è preferibile una crescita più rapida, le scatole blu sono migliori delle verdi. I cerchi dal contorno blu indicano i valori estremi. Ad esempio, sono servite 107 settimane a Kristina Kucova per entrare tra le prime 10 dopo aver vinto gli US Open juniores 2007, cioè una durata nettamente fuori media (che per gli US Open è di circa 22 mesi).

IMMAGINE 2 – Finestre di crescita

Chi è indietro?

Grazie a queste finestre temporali, possiamo vedere quali tra le recenti vincitrici di Slam juniores sono ancora in corsa per raggiungere determinati traguardi. Allo scopo, utilizzo finestre aggregate dal grafico a scatola e non quelle di crescita specifiche per torneo. Non mi spingo più in la dei primi 10 anche per le vincitrici – perché da quel punto il campione di dati inizia a frammentarsi – e il primo titolo. Questo significa che sono rilevanti solo le vincitrici dal 2012, rispetto al 2013 per i vincitori, visto il periodo di crescita più lungo necessario a entrare tra le prime 20.

Se una giocatrice ha già raggiunto il traguardo, scrivo il numero di mesi nella cella. Ma se è in ritardo (cioè fuori dal vertice del terzo quartile), lo sfondo è rosso con il carattere in bianco. Dato che, ovviamente, è meglio avere una crescita più rapida, utilizzo il carattere in blu se si è sotto la mediana – cioè la giocatrice ha ancora molto tempo – e uno sfondo verde se si è nel terzo quartile, cioè se il tempo a disposizione è sempre meno ma ancora non in modo irrecuperabile. Lo sfondo è rosso se la giocatrice ha mancato il terzo quartile.

Riepilogando, se c’è solo il numero nella cella, la giocatrice è in posizione ottimale. I numeri bianchi su sfondo rosso indicano un passaggio intermedio di crescita più lenta del normale. Le celle blu vanno bene, le verdi non sono granché e quelle rosse senza numeri vanno male.

IMMAGINE 3 – Tabella riepilogativa della crescita delle vincitrici di Slam juniores con codifica tramite colori

Un’attesa più lunga per entrare nelle prime 200

Per via della più lunga durata di crescita per entrare nelle prime 20 e andare oltre, ci sono molte più celle blu nella metà destra della tabella, se paragonata a quella dei vincitori. È anche interessante il numero di traguardi raggiunti ma con ritardo sulla progressione attesa (i numeri bianchi su sfondo rosso). Siamo principalmente nella fase tra le prime 200 e le prime 125, e credo dipenda dal fenomeno già citato, per cui alcune giocatrici erano nelle prime 200 e prime 125 quando hanno vinto lo Slam juniores.

Sebbene delle giocatrici nella tabella solo Annika Beck e Amanda Anisimova siano esempio di questo aspetto, la media di tutte le vincitrici juniores include 17 giocatrici che erano già nelle prime 200 alla loro vittoria, riducendo la durata della crescita. È per questo che non darei troppo peso agli undici mesi attesi di crescita per entrare nelle prime 200. Più probabilmente siamo in presenza di un tempo doppio, considerando la quantità di numeri bianchi su sfondo rosso per quella colonna.

Alcune considerazioni su giocatrici singole o gruppi di giocatrici.

Townsend

Anche se sempre un po’ tardi sulla progressione, Taylor Townsend ha raggiunto diversi traguardi, quindi è difficile pensare che non possa entrare tra le prime 50 dalla sua attuale 84esima posizione. La situazione può cambiare rapidamente nella classifica femminile, anche se le prime 50 sembrano rappresentare per lei un punto di arrivo.

Beck e Bouchard

Non penso che Beck e Eugenie Bouchard siano giocatrici simili, ma osserviamo quanto la durata della loro crescita sia, o sia stata, analoga. Beck si è ritirata nel 2018, ma in realtà ha smesso di giocare nel 2017 per via di infortuni, prima di compiere 24 anni. Annunciando il ritiro ha detto di avere altri aspirazioni oltre al tennis, quindi ha lasciato. Si può pensare che Beck non avesse il talento per stare nel lungo periodo dietro a Bouchard – la quale a sua volta ha avuto delle battute d’arresto – ma Beck ha vinto due tornei, e Bouchard è ancora ferma a uno.

Konjuh

Ana Konjuh era in linea con tutti i traguardi, ma è stata tradita dal gomito. A marzo si è sottoposta a un intervento chirurgico al legamento collaterale dell’ulna, noto anche con il nome di “operazione Tommy John”, che suona molto più preoccupante. Ha almeno un anno prima di riprendere qualsiasi forma di tennis competitivo. È probabile che la cella rossa delle prime 10 nella sua tabella non si riempia di un numero bianco, ma è interessante pensare a dove sarebbe potuta arrivare.

Linee pulite e cieli blu

Solo Alexander Zverev, tra i vincitori di Slam juniores, vanta un linea completamente pulita, senza celle vuote o con sfondo rosso. Tra le vincitrici abbiamo invece Bouchard, Belinda Bencic e Jelena Ostapenko che però, una volta raggiunti i traguardi, hanno smarrito la strada.

Nel frattempo Anisimova (che ha vinto il primo titolo a Bogotà 2019) e Iga Swiatek (che ha giocato la prima finale a Lugano 2019) stanno raggiungendo i loro traguardi in direzione di cieli, o celle, sempre più blu.

Tic Toc (ma è un orologio che rimane indietro?)

Marie Bouzkova è arrivata tardi a ogni traguardo, ma al momento non è lontana dalle prime 100. La tabella segnala il suo ritardo anche per i prossimi due traguardi, e non è un buon segno. Ho guardato alcune partite e, in termini di talento, penso possa raggiungere le prime 50 (magari anche le prime 40). Ha vinto gli US Open juniores 2014, e ha solo vent’anni.

Tra le vincitrici più recenti, Marta Kostyuk è entrata tra le prime 200 dopo il previsto, mentre nei tempi giusti tra le prime 125. Si trova ora allo scadere per l’ingresso tra le prime 100, e decisamente lontano vista la 245esima posizione. Possiamo dire che è ancora in tempo – anzi, è quello che ho scritto – e non la si può dare per persa. Ha vinto gli Australian Open juniores quando aveva solo 14 anni e mezzo e alla fine di giugno ne compirà 17.

Più bassa l’età della vittoria, migliore la carriera

Per alcune giocatrici, specialmente quelle che hanno vinto lo Slam juniores quando erano molto giovani, il tempo potrebbe interrompersi. I dati dell’articolo (e lo stesso per i vincitori juniores) misurano la distanza tra la vittoria in uno Slam juniores e un traguardo da professioniste, non l’età in cui questo si è verificato. La progressione verso il vertice del tennis non può essere sempre misurata a partite dall’età, perché in quel caso si ipotizza che ogni giocatrice raggiunga l’apice nello stesso momento. Il successo in uno Slam juniores fornisce indicazione del talento di una giocatrice, a prescindere dall’età.

Tuttavia, la crescita successiva alla vittoria potrebbe essere influenzata proprio dall’età della giocatrice. Ad esempio, l’età media delle vincitrici di Slam juniores è 16.5, ma ce ne sono diverse sotto i 16 anni come nel caso di Kostyuk: Maleeva (tre volte), Mirjana Lucic (due), Virginie Razzano (due), Jelena Jankovic, Barbora Strycova, Azarenka, Pavlyuchenkova (due), Townsend e Konjuh. 

È un elenco niente male, ed è solo quello delle vincitrici con meno di 16 anni degli Australian Open. Ho parlato del fatto che Hingis ha vinto il Roland Garros juniores due volte, di cui una a quattro mesi dai 13 anni e la seconda un anno dopo?!! Cori Gauff è entrata nel tabellone principale a Miami 2019 a soli 15 anni, nemmeno a un anno di distanza dalla vittoria del Roland Garros juniores.

Pur in assenza di prove inconfutabili, la mia idea è che le giocatrici che vincono Slam juniores a un’età molto più bassa della media beneficiano poi di una carriera decisamente migliore. Per adesso, mi fermo qui.

Girls Grand Slam Winners Developing as Pros, or “Tick Tyock, Kostyuk”

La crescita da professionisti dei vincitori di Slam juniores

di Chapel Heel // HiddenGameOfTennis

Pubblicato il 9 aprile 2019 – Traduzione di Edoardo Salvati

Nella maggior parte degli sport americani, ci sono organizzazioni che seguono da vicino lo sviluppo di giocatori di grande talento in una specifica disciplina, sia durante il liceo che nel periodo universitario, coloro che vengono chiamati promesse. Per quanto ne sappia, a eccezione della classifica ufficiale (in cui c’è comunque estrema confusione nelle posizioni molto distanti dal vertice), nessuno si premura di valutare promesse nel tennis con una metodologia coerente e mettere poi a disposizione di tutti i risultati. Le federazioni nazionali, e probabilmente alcuni centri o scuole private, compilano un elenco interno di giocatori promettenti, che appunto però non è reso pubblico.

Nel tennis, gli appassionati assegnano a un giocatore l’appellativo di promessa in modo molto più destrutturato. Magari da quando inizia a vincere molte partite sul circuito Challenger, magari perché arriva da una scuola di tennis prestigiosa, o magari perché è nell’orbita di un giocatore già affermato nel circuito maggiore che ne elogia la bravura. A volte perché vince un paio di partite in uno Slam o perché ottiene un risultato a sorpresa da sfavorito sempre in uno Slam. Oppure, perché vince uno Slam juniores.

In questo articolo, ho esaminato tutti i vincitori di Slam juniores dal 1990 e seguito il loro percorso nel raggiungimento di determinati traguardi da professionisti. Si tratta di 101 giocatori in 117 prove di Slam juniores.

Se vinco ora, vinco anche dopo?

La mia percezione è che si tende a supporre che il successo negli Slam juniores presagisca quello sul circuito maggiore, perché quando un giocatore vince sul circuito maggiore spesso i giornalisti ne richiamano la vittoria in uno Slam juniores e si pensa che, allora, deve essere quello il motivo. Forse è così per qualche giocatore, certamente non lo è per tutti.

La tabella mostra l’età media del vincitore di Slam juniores per i quattro tornei, il numero di tornei di singolare vinti sul circuito maggiore, i Master 1000 vinti, gli Slam vinti (al momento) e la mediana dei guadagni in carriera (compreso il doppio, i Challenger, etc).

Nei Master 1000 sono comprese anche le Finali di stagione. I guadagni in carriera tengono conto dell’inflazione. Mi interessava solo un’approssimazione, quindi ho usato l’indice dei prezzi al consumo degli Stati Uniti, anche se la maggior parte dei giocatori non è americana. Inoltre, per evitare eccessive complicazioni, ho rapportato i valori all’anno a metà della carriera di un giocatore (ad esempio, Jurgen Melzer ha giocato dal 1999 al 2019 e l’indice dei prezzi al consumo è quello del 2009). Ho preso la mediana perché la media avrebbe confuso le idee, vale fra tutti il caso di Roger Federer che ha vinto Wimbledon juniores. Da ultimo, il numero in fondo alla colonna “Mediana $$” rappresenta la mediana dei guadagni di tutti i giocatori nei quattro Slam juniores, avendo tolto i vincitori multipli, vale a dire che non è la media o la mediana delle mediane nella colonna. Lo stesso è per il corrispettivo valore nella colonna “Mediana Classifica Massima”.

Comunque non me la passerò male, no?

In aggregato, si potrebbe pensare che il vincitore di uno Slam juniores vincerà poi circa 5 tornei sul circuito maggiore (534 diviso 101) e probabilmente un Master 1000. Così non è naturalmente. Federer, Andy Murray e Stanislas Wawrinka hanno vinto 162 di quei 534 titoli, più della metà dei Master 1000 e 26 Slam su 29. In realtà, meno della metà dei campioni Slam juniores ha vinto anche un solo torneo del circuito maggiore.

Il guadagno mediano di circa 1.2 milioni di dollari non sembra così malvagio, ma la maggior parte dei giocatori ha una finestra di circa dieci anni da quando ha vinto uno Slam juniores. Se si ipotizza che per mantenersi sul circuito servono circa 75.000 dollari all’anno, un giocatore guadagna circa 45.000 dollari annui. E questo per chi ha risultati nella media, gli altri fanno molta più fatica. Dopo aver escluso i guadagni estremi di Federer, Murray, Wawrinka, Marin Cilic e Andy Roddick, e calcolato la media e la deviazione standard dei guadagni in carriera dei rimanenti giocatori, la probabilità che un campione di Slam juniores guadagni non più di 250.000 dollari in carriera è del 24%. Non proprio il massimo!

Continueresti la carriera tennistica se, subito dopo aver vinto uno Slam juniores, ti dicessero che c’è una probabilità del 24% che subirai perdite nette di centinaia di migliaia di dollari? Probabilmente si, perché sei euforico e perché “tanto non succede a me”.

Risalire la classifica

La tabella che segue mostra la percentuale di giocatori che raggiungono determinati traguardi una volta diventati professionisti. Le prime colonne si riferiscono a traguardi in termini di classifica, le ultime due a titoli sul circuito maggiore e Slam.

Sono abbastanza indeciso sulla posizione da prendere relativamente a queste percentuali. Un giocatore può avere una carriera decente se rimane tra i primi 100, e ha circa il 60% di probabilità che accada se ha vinto uno Slam juniores. E una probabilità di circa il 30% di entrare tra i primi 20 sembra abbastanza valida.

D’altro canto, dopo che hai vinto uno Slam juniores probabilmente ritieni di avere una probabilità molto più alta di raggiungere il vertice e diventare qualcuno. Eppure, circa un terzo dei giocatori non entra tra i primi 125, che significa una carriera con pochi ingressi diretti nel tabellone principale di un torneo del circuito. E questo spiega, naturalmente, i risultati trovati in precedenza per i guadagni in carriera.

Appunti relativi allo specifico torneo

Ci sono molti altri spunti e domande interessanti che si possono trarre dai dati rispetto al singolo torneo. Non voglio dedicarvi troppo tempo perché sono una deviazione dal tema centrale dell’articolo, ma ce ne sono un paio che meritano una breve digressione.

Australian Open e US Open

Perché, in generale, i vincitori dell’Australian Open juniores hanno poi un rendimento ben peggiore rispetto ai vincitori degli US Open juniores? Forse perché gli US Open arrivano a stagione inoltrata? C’è poca differenza nell’età media dei rispettivi vincitori, ma è probabile che tra gennaio e settembre di quegli anni cruciali di sviluppo i giocatori acquisiscano molta esperienza a distanza anche solo di qualche mese.

Roland Garros

Nessun vincitore del Roland Garros juniores dal 1990 al 2018 è arrivato al numero 1 della classifica mondiale.

Dal 2007, i vincitori del Roland Garros juniores hanno vinto un solo titolo del circuito maggiore (Andrey Rublev a Umago 2017). Forse ancora più sorprendente, Rublev è l’unico vincitore di Roland Garros juniores dal 2007 a essere entrato tra i primi 50.

Wimbledon

Wimbledon è in linea con gli altri Slam in molte categorie, ma a partire dai primi 20 ha una riduzione in percentuale decisamente più marcata.

Master 1000

Dal 2006, un vincitore di Slam juniores ha vinto solo cinque Master 1000, e ci sono riusciti in due (Grigor Dimitrov e Alexander Zverev) su 35 giocatori.

Vincitori multipli

Ci sono 14 vincitori multipli di Slam juniores, ma ai nostri fini escludiamo Tseng Chun-hsin, che ne ha vinti due l’anno scorso e ha 17 anni (e ancora con una classifica nei 400). La tabella riporta alcuni dei dati visti in precedenza, ma relativi ai migliori 13 giocatori.

A indicazione di una carriera di successo duraturo sono numeri per cui non servono spiegazioni, anche se le vittorie negli Slam degli adulti sono difficili da ottenere, come in effetti dovrebbe essere. I guadagni includono anche i premi del doppio, ma non le altre colonne e con Leander Paes nell’elenco (da giovane, un singolarista di buon livello) è d’obbligo citare i suoi 54 titoli (tra cui ben 8 Slam!) e il numero 1 della classifica di doppio. Senza contare le vittorie nel doppio misto e il ruolo da gregario nel film Charlie e la fabbrica di cioccolato (per la somiglianza con l’attore Nitin Ganatra, n.d.t.).

Vincere tre volte è meglio di due? Non ci sono abbastanza dati per dirlo. Dal 1990, solo due giocatori hanno vinto tre prove di Slam juniores: Gael Monfils, che è evidentemente un ottimo giocatore anche se si pensa che i suoi risultati sono stati inferiori alle attese e Daniel Elsner, di cui non ho mai sentito parlare.

Durata della crescita

Siamo in grado di calcolare la probabilità con cui i vincitori di Slam juniores raggiungono determinati traguardi da professionisti, ma non la velocità con cui lo fanno (se mai ci riescono). Ho misurato il tempo trascorso in mesi (arrotondato) tra la data della vittoria di uno Slam juniores per un giocatore e il raggiungimento di quei traguardi. Il grafico dell’immagine 1 mostra le curve per ciascun torneo con il numero di mesi sull’asse delle ordinate.

IMMAGINE 1 – Durata della crescita (in mesi)

Siccome nessun vincitore del Roland Garros juniores dal 1990 è arrivato al numero 1 della classifica, ho impostato la durata artificiosamente in modo che uscisse dal grafico. Non si tratta comunque di una statistica chiave, perché di 101 giocatori univoci, solo quattro sono diventati numeri 1 (Federer, Murray, Roddick e Marcelo Rios), redendo il campione troppo ridotto per essere significativo.

Aggregando i dati dei quattro Slam juniores per ognuno dei traguardi citati, oltre al primo “vero” Slam raggiunto, otteniamo il grafico a scatola dell’immagine 2. L’asse delle ordinate riporta il numero di mesi.

Grafico a scatola

Se non si ha familiarità con il grafico a scatola, le porzioni superiore e inferiore delle linee che si estendono in verticale rappresentano rispettivamente il valore massimo e minimo.

La linea in mezzo alla scatola è la mediana, mentre la “x” interna alla scatola è la media. Il colore verde esprime il terzo quartile e il blu il secondo quartile. Visto che è preferibile una crescita più rapida, le scatole blu sono migliori delle verdi. I cerchi dal contorno blu indicano i valori estremi. Ad esempio, sono servite 142 settimane a Razyan Sabau per entrare tra i primi 125 dopo aver vinto Wimbledon juniores 1993, cioè una durata nettamente fuori media (che per Wimbledon è di circa 40 mesi).

IMMAGINE 2 – Finestre di crescita

Se il fatto che la porzione verde della finestra di crescita per i primi 10 non è chiaramente sopra alla verde dei primi 20 crea confusione, è probabile che sia dovuto solo alla dimensione del campione. Ci sono 23 occorrenze per i primi 10, 17 per i primi 5 e, come detto, solo 4 per il numero 1.

Chi è alla pari?

Grazie a queste finestre temporali, possiamo vedere quali tra i recenti vincitori di Slam juniores sono ancora in corsa per raggiungere determinati traguardi. Allo scopo, utilizzo finestre aggregate dal grafico a scatola e non quelle di crescita specifiche per torneo. Non mi spingo più in la dei primi 10 in questo caso – perché da quel punto il campione di dati inizia a frammentarsi – e il primo titolo, che significa che sono rilevanti solo i vincitori dal 2013.

Vorrei saperne di più su come costruire un grafico da queste informazioni, ma la cosa migliore che posso fare è associare dei colori a una tabella. Se un giocatore ha già raggiunto il traguardo, scrivo il numero di mesi nella cella. Ma se è in ritardo (cioè fuori dal vertice del terzo quartile), lo sfondo è rosso con il carattere in bianco. Visto che, ovviamente, è meglio avere una crescita più rapida, utilizzo il carattere in blu se si è sotto la mediana – cioè il giocatore ha ancora molto tempo – e uno sfondo verde se si è nel terzo quartile, cioè se il tempo a disposizione è sempre meno, ma non ancora in modo irrecuperabile. Lo sfondo è rosso se il giocatore ha mancato il terzo quartile.

Riepilogando, se c’è solo il numero nella cella, il giocatore è in posizione ottimale. I numeri bianchi su sfondo rosso indicano un passaggio intermedio di crescita più lenta del normale. Le celle blu vanno bene, le verdi non sono granché e quelle rosse senza numeri vanno male.

IMMAGINE 3 – Tabella riepilogativa della crescita dei vincitori di Slam juniores con codifica tramite colori

Kyrgios

Si fa notare più di tutte la cella rossa di Nick Kyrgios nella colonna dei primi 10. Ma non va dato troppo peso. Come detto, la dimensione del campione dei primi 10 si sta frammentando, motivo per il quale la parte negativa nel grafico a scatola è inferiore a quella dei primi 20. Va aggiunto però che i giocatori davvero fenomenali sono entrati tra i primi 10 antecedentemente alla fase della carriera in cui si trova Kyrgios, quindi un po’ di preoccupazione (per lui) la desta.

I tardivi

Christian Garin, Gianluigi Quinzi e Noah Rubin hanno raggiunto alcuni dei traguardi, ma sempre in ritardo, e sono anche indietro su tutti quelli successivi. Le recenti prestazioni di Garin lo hanno portato vicino ai primi 50 in modo da far pensare che abbia margini di crescita inespressi, ma il passaggio dal numero 73 al 50 è più ampio di quanto non lo sia nella realtà.

Stelle amiche

Tutti i recenti vincitori godono di buona salute, in molti casi perché i loro titoli sono freschi. Alcuni però si distinguono più di altri. Molta attenzione è stata data ai due canadesi Denis Shapovalov e Felix Auger-Aliassime che, rispetto a questa metrica, sono chiaramente sulla giusta traiettoria, o anche in anticipo sui tempi. Hanno ricevuto molta meno attenzione invece vincitori più recenti come Alexei Popyrin e Alejandro Davidovich Fokina, che sembrano anche loro sulla giusta traiettoria.

Tic toc

Per Geoffrey Blancaneaux il momento è arrivato, inesorabile. Si trova nella parte inferiore della finestra per i primi 200 e i primi 125. Gli serve quindi una scalata rapida e, dal numero 498, non sembra che sia nelle sue corde. Zsombor Piros ha un po’ più di tempo di Blancaneaux, ma al numero 361 deve rendersi conto di aver mancato gli obiettivi (letteralmente) e che si sta avvicinando, in carriera, a un punto di non ritorno.

Boys Grand Slam Winners Developing as Pros, or “Geoffrey Blancaneaux, You’re On the Clock”

Un semplice classificatore di stili di gioco alla prova

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 17 aprile 2019 – Traduzione di Edoardo Salvati

Qualsiasi indicatore di stile di gioco ha valenza in funzione della capacità di informare su un determinato giocatore più della sua bravura complessiva. Se applichiamo questa linea di giudizio a categorie di stili di gioco derivate da statistiche di base della partita, cosa otteniamo? 

Nell’ultimo di una serie di articoli sugli stili di gioco, cerco di capire se queste categorie sono in grado di migliorare la previsione sull’esito di una partita. Le statistiche in questione sono solo quattro – frequenza di ace e doppi falli, differenza nelle percentuali di punti vinti sulla prima e sulla seconda di servizio, durata media degli scambi – e sono quanto di meglio disponibile in termini aggregati per misurare determinati aspetti della prestazione di un giocatore che vanno oltre le qualità oggettive.  

In precedenza, ho valutato le conseguenze (o effetti) per i giocatori che hanno partecipato agli Slam su ognuna di queste statistiche e trovato che, tramite algoritmo k-means, 10 raggruppamenti erano una scelta ragionevole al fine di ridurre la varianza infragruppo. Ma come possono diventare utili? Se riteniamo che il confronto di stili abbia un peso, allora dovremmo attenderci che questi raggruppamenti migliorino le nostre aspettative per il risultato di almeno alcuni di questi scontri tra stili di gioco. 

È davvero così? Un po’ di statistica..

Per mettere alla prova lo scontro tra stili di gioco, dobbiamo partire dalla previsione di base di nostra scelta. Nel mio caso, la previsione fa uso delle valutazioni dei giocatori specifiche per superficie ed è determinata dalla differenza fra valutazioni tra il giocatore i e il giocatore j, che possiamo denominare Dij.

Ipotizziamo ora che anche la singola partita abbia una categoria di stile. Se il giocatore i appartiene a un raggruppamento di stile ki e il giocatore i a un gruppo di stile kj, e Jkè un vettore a K-elementi con valore 1 nel k-esimo posto e valore zero in tutti gli altri, possiamo assegnare un effetto stile per quella specifica partita, ϕ(ki, kj) definito come J′kiΦJkj, per una matrice K per K di parametri di stile Φ.

Il modello logistico che determina l’effetto stile è: 

log(pij/(1 − pij)) = βDij + ϕ(ki, kj).

Considerato che l’effetto ϕ(ki, kj) dovrebbe avere un effetto complementare per il giocatore j, cioè ϕ(ki, kj) = − ϕ(ki, kj), adattiamo il modello solo in termini del triangolo inferiore di Φ, dove ki kj. Con K = 10, risultano 55 effetti stile.  

Adattamento

Ho adattato il modello logistico appena descritto a tutte le partite (tra i giocatori che hanno partecipato agli Slam) almeno di livello Challenger tra il 2014 e il 2017. Ho poi applicato l’effetto stile per correggere la previsione di base per le partite giocate nel 2018. Dei 55 effetti stile delle partite oggetto del test, 19 hanno mostrato un miglioramento nella funzione di classificazione log-loss delle previsioni. Come si vede dal grafico dell’immagine 1 però, si tratta di un miglioramento ridotto se non per alcuni scontri tra giocatori. 

IMMAGINE 1 – Scontri di stile di gioco che migliorano la previsione delle partite del circuito maschile

In assenza di un contesto, sono scontri che hanno poco significato. Possiamo dare un’interpretazione a questi risultati analizzando specifici accostamenti giocatore-avversario che rientrano in ognuno dei gruppi più significativi, per osservare come la correzione generata dallo stile modifichi la previsione di quelle determinate partite.  

Raggruppamento 6 contro 7

L’immagine 2 mostra un campione degli scontri tra giocatori appartenenti al raggruppamento 6:7, quello con il maggior miglioramento predittivo di tutti gli scontri di stile.

Tre dei giocatori del raggruppamento 6 sono Ernests Gulbis, Feliciano Lopez e Jeremy Chardy. La caratteristica distintiva è un servizio più potente della media, una seconda più accurata della media, una differenza più ridotta della media tra punti vinti sulla prima e sulla seconda e una velocità di gioco superiore alla media.

IMMAGINE 2 – Esempi di scontri tra giocatori dal raggruppamento di stile 6:7

Nel raggruppamento di stile 7 invece, ci sono giocatori con un servizio meno potente, una maggiore frequenza di doppi falli, una differenza più ampia tra punti vinti sulla prima e sulla seconda e con un gioco caratterizzato da scambi più lunghi. Tra questi, Kei Nishikori, Rogerio Dutra Silva e Novak Djokovic.

L’effetto stile nello scontro tra questo raggruppamento e quello precedente non è favorevole a giocatori come Gulbis, Lopez e Chardy. La previsione di base infatti subisce un aggiustamento verso il basso, e più spesso sembra essere stata questa la direzione corretta.

Raggruppamento 6 contro 8

Il raggruppamento di stile 8 ha una marcata somiglianza con il 7, ma si distingue per una prima di servizio in media più potente e minori rischi con la seconda. Troviamo giocatori come Denis Istomin, Filip Krajinovic, e Philipp Kohlschreiber. È interessante notare che gli aspetti in comune dei raggruppamenti 7 e 8 generino uno scontro altrettanto forte con i giocatori del raggruppamento 6, a cui possiamo aggiungere Gilles Muller.

IMMAGINE 3 – Esempi di scontri tra giocatori dal raggruppamento di stile 6:8

In questo caso gli scontri determinano, in generale, una minore correzione verso il basso. Gli esempi suggeriscono comunque un rendimento peggiore più frequente per i giocatori del raggruppamento 6 contro quelli del raggruppamento 8.

Raggruppamento 5 contro 10

Lo scontro successivo è tra i giocatori del raggruppamento di stile 5 e quelli del raggruppamento 10, al terzo posto per miglioramento predittivo delle partite del campione testato. I giocatori del raggruppamento 5 si mettono in mostra per avere una differenza di rendimento ridotta tra la prima e la seconda senza però servire molti ace. Rappresentano anche il secondo gruppo dal ritmo di gioco più lento sul circuito. Tre giocatori in questa categoria di stile sono Jordan Thompson, Pablo Cuevas e Juan Martin Del Potro.

Il raggruppamento 10 è diametralmente opposto al 5, con un’alta frequenza di ace, un divario più ampio della media nel rendimento tra la prima e la seconda e uno dei ritmi di gioco più rapidi del circuito. Troviamo giocatori come Fabio Fognini, David Goffin e Mackenzie McDonald.

Il campione di partite dell’immagine 4 mostra che il raggruppamento 5 subisce le maggiori conseguenze quando si scontra con lo stile aggressivo e velocizzato dei giocatori del raggruppamento 10.

IMMAGINE 4 – Esempi di scontri tra giocatori dal raggruppamento di stile 5:10

Conclusioni

Emergono alcuni risultati positivi da una prima analisi del valore predittivo di categorie di stile basate sull’aggregazione delle più semplici statistiche di una partita. Almeno una parte degli scontri esaminati fa vedere un guadagno effettivo in termini di aspettative, e suggerisce che è possibile raggruppare i giocatori in funzione dello stile con un certo grado di ragionevolezza. Sarebbe interessante studiare come l’aggiunta di altri dettagli legati ai giocatori – ad esempio l’altezza, la mano dominante, il tipo di rovescio – contribuisca a migliorare i risultati. Da quanto osservato sinora, sembra che sia la giusta direzione per affrontare agli scontri diretti con un nuovo metodo d’indagine.

Putting a Basic Playing Style Classifier to the Test

Una storia dei tabelloni femminili al Roland Garros in cui chiunque poteva vincere

di Jeff Sackmann // TennisAbstract

Pubblicato il 21 maggio 2019 – Traduzione di Edoardo Salvati

Negli ultimi anni, si è parlato molto della “profondità” del tennis femminile. Dopo che al termine degli Australian Open 2017 Serena Williams è andata in maternità, nessuna giocatrice è emersa come forza dominante del circuito. Nell’episodio numero 62 del Podcast di Tennis Abstract, ho affermato che l’imminente edizione del Roland Garros dà la sensazione di essere aperta a qualsiasi vincitrice, specialmente dopo aver visto la finale degli Internazionali d’Italia tra Karolina Pliskova e Johanna Konta, due giocatrici dalla destrezza relativa sulla terra battuta.

Alla fine della registrazione, ho generato delle previsioni per il torneo con l’utilizzo delle valutazioni Elo specifiche per superficie, su un campo partecipanti costituito dalle prime 128 della classifica mondiale (il tabellone effettivo sarà diverso, ma le qualificate e le wild card tipicamente non hanno grande influenza sul risultato finale).

La campionessa in carica Simona Halep è la prima favorita, con una probabilità del 22.2% di difendere il titolo. Segue Petra Kvitova, appena sopra al 10%, con Kiki Bertens al terzo posto e poco sotto la doppia cifra. Ci sono poi altre due giocatrici con il 5% di probabilità di vittoria, cinque con almeno il 3% e altre nove con l’1%. Si tratta di un totale di 19 giocatrici [1] con almeno 1 probabilità su 100, tra cui due non certamente favorite come Anett Kontaveit e Petra Martic.

Maria Sakkari, vincitrice del torneo di Rabat e semifinalista agli Internazionali d’Italia, è al 20esimo posto, a un passo dall’1%. Non c’è molta separazione tra le giocatrici in cima all’elenco, e quando il sorteggio avrà assegnato fortune e sfortune l’ordine sarà senza dubbio un altro.

L’impressione è che possa vincere chiunque

Questo è ancor più vero se lo si paragona al Roland Garros di trent’anni fa, con una Steffi Graf inarrivabile al 68% di probabilità di vittoria, e tra le sole cinque giocatrici con più dell’1% di probabilità (le divinità del tennis hanno preso in giro questa previsione retrospettiva, perché Arantxa Sanchez Vicario portò la sua probabilità dell’1.5% a inizio torneo fino alla vittoria).

Il nutrito gruppo delle diciannove con almeno l’1% di probabilità è in effetti uno sviluppo molto recente. Nei precedenti trent’anni, le giocatrici con almeno l’1% di probabilità di vittoria sono state in media 11.5 e solo in tre occasioni si è arrivati a 19, due delle quali nel 2017 e 2018 (l’altra è stata nel 2010, con l’incredibile numero di 23 giocatrici con almeno l’1% e nessuna di loro con più del 13% di probabilità di vittoria). Non più tardi del 2004, solo 8 giocatrici potevano manifestare tanto ottimismo prima dell’avvio del torneo.

La seconda soglia di favorite, giocatrici con una probabilità di vittoria non superiore all’1%, è l’aspetto più caratteristico dei recenti tabelloni del Roland Garros, e rafforza la convinzione che di questi tempi il tennis femminile sia particolarmente equilibrato. Se Kontaveit, testa di serie 17, non sembra una possibile vincitrice, è però senza dubbio una candidata più concreta di quanto lo fossero 15 anni fa giocatrici con una testa di serie simile.

È cambiato il dominio al vertice

Restringendo l’attenzione a soglie di probabilità più alte, come il 3% o il 5%, l’era attuale si distingue di meno. Dal 1989 al 2018, il classico tabellone aveva 6.5 giocatrici con almeno il 3% di probabilità e 4.8 giocatrici con almeno il 5%. Quello del 2019 include 10 giocatrici nella prima soglia e 5 – all’incirca la media storica – nella seconda. Solo l’esercito delle giocatrici da 1% separa il tabellone di quest’anno da, ad esempio, il 1997, quando in nove avevano almeno il 3% di probabilità, di cui sette al 5% o più.

È cambiato invece il predominio delle giocatrici in cima all’elenco. Negli ultimi tre decenni, in media la favorita arrivava a Parigi con una probabilità su tre di vittoria. Nelle tre edizioni da primatista, Halep non è andata oltre il 23%. La tabella mostra le dieci favorite “più deboli” per le edizioni dal 1989 al 2019.

Anno  Favorita       Probabilità     
2010  V. Williams    12.9%     
2018  Halep          19.1%  *  
2011  Wozniacki      22.0%     
2019  Halep          22.2%     
2017  Halep          23.0%     
2006  Henin          23.3%  *  
2005  Henin          23.4%  *  
2012  Azarenka       24.1%     
2008  Sharapova      24.5%     
2009  Safina         24.7%

* Vittoria del torneo

Tradizionalmente, il Roland Garros fa pensare che il campo partecipanti femminile sia molto equilibrato, anche quando in effetti non è stato così. La favorita ha poi vinto solo 8 delle ultime 30 edizioni, una frequenza del 27% che quasi potrebbe rientrare nel precedente elenco. Sanchez Vicario ha vinto due volte avendo meno del 2% di probabilità. Il titolo di Anastasia Myskina nel 2004 aveva una probabilità dello 0.8%, mentre nel 2017 Jelena Ostapenko era la 27esima favorita, dietro Mona BarthelKaterina Siniakova, con una probabilità dello 0.4%.

Le sorprese quindi sono sempre state parte integrante di Parigi. In assenza di una giocatrice dominante in cima al tabellone e con il numero “1” vicino al nome, le altre si sono finalmente avvicinate. Nessuna ha una probabilità così convincente da pensare di avere già la vittoria in tasca, e un’impressionante pletora di contendenti ha ragione di sperare in due settimane di magia.

Note:

[1] L’elenco completo delle “favorite” ordinate per probabilità di vittoria: Halep, Kvitova, Bertens, Pliskova, Ashleigh BartyAngelique KerberElina SvitolinaCaroline WozniackiGarbine MuguruzaNaomi OsakaSloane StephensMarketa VondrousovaMadison Keys, Konta, Serena, Kontaveit, Caroline GarciaVictoria Azarenka e Martic.

A History of Wide-Open French Open Women’s Draws

Sara Errani sull’orlo del precipizio

di Chapel Heel // HiddenGameOfTennis

Pubblicato il 17 maggio 2019 – Traduzione di Edoardo Salvati

Nella prima partita degli Internazionali d’Italia, il torneo di casa, Sara Errani è stata demolita per 6-1 6-0 dalla numero 43 del mondo, Viktoria Kuzmova, che a sua volta la scorsa settimana a Madrid non aveva fatto nemmeno un game in pochi minuti in campo contro Simona Halep.

Sono andato subito a vedere le statistiche di Errani per cercare il numero di doppi falli, che ultimamente è diventato il motivo principale d’interesse per le sue statistiche. Sei doppi falli commessi, che non sembrano tanti, anche se ha servito solo 17 seconde. Mi hanno colpito di più invece le sette palle break che ha dovuto fronteggiare in una partita così breve. Si tratta di circa il 15% di tutti i punti al servizio, vale a dire che si è trovata sotto pressione al servizio più spesso di una volta ogni sette battute.

Ho fatto una veloce indagine sulle prime 125 della classifica, oltre a Errani, per la stagione 2019, compreso il torneo di Madrid, e per il periodo dalla stagione 2016 a quella attuale (incluso Madrid), eliminando poi tutte le giocatrici senza almeno 400 punti al servizio nel 2019. Sono rimaste fuori in quattro, tra cui Maria Sharapova.

La pressione delle palle break

La tabella mostra, per entrambi i periodi, le palle break fronteggiate come percentuale dei punti totali al servizio, e l’indice-z (cioè il numero di deviazioni standard rispetto alla media di questo gruppo. Nota: ho invertito il segno dell’indice-z in modo che a valori negativi corrispondano prestazioni negative). Ho aggiunto una quinta colonna “Differenza Indice-z” per la differenza tra breve e lungo periodo dell’indice-z, i cui numeri non hanno un significato intrinseco (almeno, non credo ne abbiano uno), ma aiutano a far vedere il cambiamento in termini di pressione delle palle break tra i due periodi di riferimento. La tabella è inizialmente ordinata per la peggior percentuale di pressione delle palle break (PBP) del 2019, ma si possono applicare altri filtri liberamente.

Min 400 Punti
servizio
PBP %
2019
Indice-z 2019PBP %
2016-2019
Indice-z
2016-2019
Differenza
Indice-z
Aleksandra Krunic0.161-2.8320.115-0.153-2.68
Sara Errani0.161-2.8320.141-2.560-0.27
Daria Gavrilova0.148-2.0220.123-0.893-1.13
Daria Kasatkina0.147-1.9590.122-0.801-1.16
Evgeniya Rodina0.145-1.8350.138-2.2830.45
Johanna Larsson0.145-1.8350.122-0.801-1.03
Shuai Zhang0.141-1.5850.117-0.338-1.25
Tamara Zidansek0.137-1.3360.129-1.4490.11
Anna Karolina Schmiedlova0.137-1.3360.135-2.0050.67
Nao Hibino0.137-1.3360.125-1.079-0.26
Samantha Stosur0.137-1.3360.110.310-1.65
Rebecca Peterson0.136-1.2730.119-0.523-0.75
Heather Watson0.136-1.2730.117-0.338-0.94
Ivana Jorovic0.135-1.2110.121-0.708-0.50
Mandy Minella0.134-1.1490.118-0.430-0.72
Lesia Tsurenko0.133-1.0860.120-0.616-0.47
Aliaksandra Sasnovich0.133-1.0860.119-0.523-0.56
Ons Jabeur0.132-1.0240.114-0.060-0.96
Vera Lapko0.132-1.0240.1130.033-1.06
Andrea Petkovic0.132-1.0240.124-0.986-0.04
Viktorija Golubic0.132-1.0240.120-0.616-0.41
Anna Blinkova0.131-0.9610.124-0.9860.03
Madison Brengle0.131-0.9610.131-1.6340.67
Yafan Wang0.131-0.9610.127-1.2640.30
Amanda Anisimova0.131-0.9610.115-0.153-0.81
Mihaela Buzarnescu0.130-0.8990.1110.218-1.12
Kristina Mladenovic0.130-0.8990.115-0.153-0.75
Jelena Ostapenko0.129-0.8370.124-0.9860.15
Laura Siegemund0.128-0.7740.119-0.523-0.25
Christina Mchale0.125-0.5870.121-0.7080.12
Marie Bouzkova0.125-0.5870.116-0.245-0.34
Barbora Strycova0.125-0.5870.114-0.060-0.53
Saisai Zheng0.125-0.5870.126-1.1710.58
Margarita Gasparyan0.124-0.5250.121-0.7080.18
Lauren Davis0.123-0.4630.124-0.9860.52
Sara Sorribes Tormo0.122-0.4000.146-3.0232.62
Zarina Diyas0.122-0.4000.121-0.7080.31
Fiona Ferro0.122-0.4000.135-2.0051.61
Carla Suarez Navarro0.121-0.3380.1120.125-0.46
Timea Bacsinszky0.121-0.3380.117-0.3380.00
Monica Puig0.120-0.2750.1060.681-0.96
Magda Linette0.120-0.2750.114-0.060-0.22
Anett Kontaveit0.120-0.2750.1050.773-1.05
Alison Riske0.120-0.2750.1110.218-0.49
Lara Arruabarrena0.119-0.2130.123-0.8930.68
Dalila Jakupovic0.119-0.2130.116-0.2450.03
Mona Barthel0.119-0.2130.116-0.2450.03
Kateryna Kozlova0.119-0.2130.1130.033-0.25
Elise Mertens0.119-0.2130.116-0.2450.03
Irina Camelia Begu0.118-0.1510.120-0.6160.47
Maria Sakkari0.118-0.1510.124-0.9860.84
Kaia Kanepi0.118-0.1510.1120.125-0.28
Vera Zvonareva0.117-0.0880.1130.033-0.12
Anastasija Sevastova0.117-0.0880.1110.218-0.31
Kirsten Flipkens0.117-0.0880.115-0.1530.07
Svetlana Kuznetsova0.117-0.0880.1110.218-0.31
Jil Teichmann0.116-0.0260.115-0.1530.13
Alize Cornet0.116-0.0260.125-1.0791.05
Victoria Azarenka0.116-0.0260.1050.773-0.80
Sorana Cirstea0.116-0.0260.116-0.2450.22
Sloane Stephens0.1150.0360.1090.403-0.37
Ysaline Bonaventure0.1150.0360.1100.310-0.27
Viktoria Kuzmova0.1140.0990.1050.773-0.67
Tatjana Maria0.1140.0990.115-0.1530.25
Stefanie Voegele0.1140.0990.1130.0330.07
Magdalena Rybarikova0.1140.0990.1120.125-0.03
Su Wei Hsieh0.1130.1610.122-0.8010.96
Jessica Pegula0.1130.1610.115-0.1530.31
Alison Van Uytvanck0.1130.1610.1070.588-0.43
Ajla Tomljanovic0.1130.1610.116-0.2450.41
Aryna Sabalenka0.1130.1610.1040.866-0.71
Eugenie Bouchard0.1120.2230.115-0.1530.38
Qiang Wang0.1120.2230.1100.310-0.09
Venus Williams0.1120.2230.1120.1250.10
Natalia Vikhlyantseva0.1120.2230.1120.1250.10
Yulia Putintseva0.1120.2230.121-0.7080.93
Veronika Kudermetova0.1110.2860.114-0.0600.35
Bernarda Pera0.1110.2860.114-0.0600.35
Polona Hercog0.1110.2860.122-0.8011.09
Misaki Doi0.1100.3480.117-0.3380.69
Petra Martic0.1100.3480.1060.681-0.33
Beatriz Haddad Maia0.1090.4100.1050.773-0.36
Pauline Parmentier0.1090.4100.121-0.7081.12
Caroline Garcia0.1090.4100.0991.329-0.92
Lin Zhu0.1080.4730.118-0.430.90
Anastasia Potapova0.1080.4730.122-0.8011.27
Sofia Kenin0.1080.4730.1120.1250.35
Anastasia Pavlyuchenkova0.1070.5350.1060.681-0.15
Kristyna Pliskova0.1070.5350.0981.422-0.89
Vitalia Diatchenko0.1070.5350.118-0.430.97
Dayana Yastremska0.1060.5980.1090.4030.20
Garbine Muguruza0.1060.5980.0991.329-0.73
Belinda Bencic0.1060.5980.1100.3100.29
Ekaterina Alexandrova0.1060.5980.1120.1250.47
Julia Goerges0.1050.6600.0921.977-1.32
Taylor Townsend0.1050.6600.121-0.7081.37
Nicole Gibbs0.1030.7850.122-0.8011.59
Elina Svitolina0.1030.7850.1021.051-0.27
Katie Boulter0.1030.7850.114-0.0600.85
Caroline Wozniacki0.1020.8470.1030.959-0.11
Iga Swiatek0.1020.8470.1050.7730.07
Katerina Siniakova0.1010.9090.115-0.1531.06
Danielle Collins0.1000.9720.1120.1250.85
Astra Sharma0.1000.9720.1030.9590.01
Donna Vekic0.1000.9720.1110.2180.75
Madison Keys0.0991.0340.0912.070-1.04
Angelique Kerber0.0991.0340.1040.8660.17
Camila Giorgi0.0991.0340.1060.6810.35
Johanna Konta0.0981.0960.0951.699-0.60
Dominika Cibulkova0.0961.2210.1130.0331.19
Karolina Muchova0.0941.3460.1001.2360.11
Simona Halep0.0931.4080.1040.8660.54
Serena Williams0.0911.5330.0783.274-1.74
Bianca Andreescu0.0891.6580.0991.3290.33
Ashleigh Barty0.0891.6580.0862.533-0.88
Karolina Pliskova0.0881.7200.0902.163-0.44
Petra Kvitova0.0851.9070.0941.7920.12
Marketa Vondrousova0.0851.9070.1060.6811.23
Tereza Smitkova0.0851.9070.1050.7731.13
Naomi Osaka0.0841.970.0921.977-0.01
Kiki Bertens0.0782.3440.0971.5140.83
Jennifer Brady0.0772.4060.1050.7731.63
Media0.1160.113
Mediana0.1150.114
Deviazione Standard0.0160.010

Aleksandra Krunic è in difficoltà al servizio nel 2019 quanto lo è Errani, ma si tratta per lei di una novità, perché nell’orizzonte più lungo è rimasta all’incirca in media. Così non è invece per Errani, che riesce in qualche modo a regredire da numeri già significativamente scadenti. Sempre nel lungo periodo, Sara Sorribes Tormo è stata ancora più sotto pressione di Errani, con tre intere deviazioni standard dal lato sbagliato della media. Nel 2019 è solo al 36esimo posto delle peggiori: o ha cambiato qualcosa, o il campione di dati deve ancora aggiornarsi per riflettere la situazione.

Deviazioni standard dalla media

Errani stessa è vicina a tre deviazioni standard dalla media, che la pongono agli estremi della curva. In concreto, all’interno di una partita di routine in due set (tipo, 6-3 6-3) una giocatrice ha probabilmente 60-65 punti al servizio. Questo significa che Errani si trova di fronte a circa tre game di servizio in più in cui è sotto pressione per le palle break che deve fronteggiare rispetto alla media del gruppo.

Tra le migliori per indice-z nel lungo periodo non troviamo sorprese, vista la presenza tra le altre di Kiki Bertens, Naomi Osaka, Petra Kvitova, Karolina Pliskova, Ashleigh Barty, Madison Keys, Julia Goerges e Serena Williams (l’indice-z di Williams nel lungo è fantascientifico). Per il 2019 però, due giovani sono entrate tra le prime 10, Marketa Vondrousova e Bianca Andreescu.

Andreescu ha dimostrato di avere un servizio solido, ma Vondrousova non appare così forte, anche se il fatto di essere mancina probabilmente è un fattore rilevante. Sono numeri che semplicemente ricordato che proteggere il turno di servizio non è solo una questione di avere un servizio potente. Anche Caroline Wozniacki, Elina Svitolina e Halep, e pure Astra Sharma (!) rientrano tra le prime 20.

Tra i problemi al servizio e una bizzarra squalifica per doping (bizzarra quanto la sentenza, con una contestuale “ingestione involontaria” e un “lieve grado di colpevolezza”), mi ha sorpreso che Errani non abbia scelto gli Internazionali d’Italia per ritirarsi dal professionismo. Ha vinto contro pronostico in passato, ma le colleghe sono diventate più potenti, e lei sta regredendo.

Nota a margine: punti con la pressione delle palle break

Non credo che calcolare la pressione delle palle break in percentuali aggiunga nuove informazioni. È di fatto un altro modo per rendersi conto della solidità di servizio di una giocatrice. La correlazione con i punti vinti al servizio presenta il robusto valore (almeno per il 2019) di -0.79, senza una differenza materiale tra terra battuta e cemento. Ritengo però interessante osservare un servizio debole (in generale o per una specifica partita) con la lente d’ingrandimento sulla quantità di pressione a cui una giocatrice al servizio è veramente sottoposta.

Gli appassionati sono a proprio agio sui numeri relativi alle palle break salvate e a quelle trasformate. Sono occorrenze che spesso danno idea dell’equilibrio di una partita e di come possa andare in una direzione o nell’altra, ma sono anche statistiche con una larga componente di casualità (o fortuna o non replicabile dominio nei momenti importanti, quale sia il termine che preferite; qui per approfondimenti). Teoricamente, una giocatrice può essere più brava della media a salvare palle break (in termini percentuali), ma nel contempo esporsi a così tante palle break da rendere inefficace il talento nel salvarle.

Percentuale di pressione sulle palle break

Potrebbe essere utile valutare anche la percentuale di pressione sulle palle break di una giocatrice al servizio nelle occasioni in cui ci sbrighiamo a dare merito alla giocatrice alla risposta. Facciamo tutti scelte soggettive nel commentare una partita che non abbiamo visto. Ad esempio, perché ho ipotizzato che Errani abbia avuto una giornata terribile al servizio invece di pensare che sia stata Kuzmova ad averne una fantastica alla risposta? Avrei potuto altrettanto facilmente scrivere che Kuzmova ha risposto con molta efficacia, raggiungendo la palla break sul 15% dei servizi di Errani.

Ho fatto un esempio limite, perché la difficoltà di Errani con il servizio è ben nota e perché Kuzmova non è conosciuta per avere una risposta formidabile. In una situazione meno evidente, prima di dare troppo merito alla giocatrice alla risposta, potrebbe aver senso stabilire se è normale per una giocatrice avere una palla break sul 15% dei punti al servizio dell’avversaria.

Linearità tra palle break e percentuale di vittoria

Da ultimo, inserisco una tabella per la stagione femminile 2019 in cui ho suddiviso in sottoinsiemi tutte le partite in funzione della percentuale di PBP, con incrementi all’incirca del 2.5%. Visto che quasi il 60% delle partite è ripartito nei tre sottoinsiemi centrali (7.50% – 15.00%), ho ulteriormente scomposto in sottoinsiemi dello 0.75%, come appaiono a destra della parentesi. Il punto in cui la percentuale di vittoria supera il 50% è intorno all’11.2%.

In due circostanze la percentuale di pressione delle palle break non è lineare con la percentuale di vittoria. La più importante è nell’intervallo 9.00% – 10.50% (evidenziato), ma un po’ anche nell’intervallo 12.00% – 13.50%. Due di questi mini-sottoinsiemi si traducono più o meno in una palla break a partita quando una giocatrice ha 65 punti al servizio. Non sorprende quindi l’impossibilità di una linearità perfetta.

Errani Teeters on the Brink (Backsliding)

Roger Federer, vincitore della lotteria

di Jeff Sackmann // TennisAbstract

Pubblicato il 16 maggio 2019 – Traduzione di Edoardo Salvati

Battendo Borna Coric nel terzo turno degli Internazionali d’Italia a Roma con il punteggio di 2-6 6-4 7-6(7), Roger Federer ha generato statistiche davvero insolite. I suoi 95 punti vinti contro i 107 di Coric equivalgono a un percentuale di punti vinti sul totale (PVT) del 47%, non inedita per il giocatore che vince, ma ai limiti delle effettive possibilità. L’indice di dominio (Dominance Ratio o DR) di Federer – cioè il rapporto tra i punti vinti alla risposta e quelli persi al servizio – è di 0.78, con 1.0 che rappresenta una situazione in cui i punti sono equamente distribuiti. Ha vinto solo 24 volte in carriera con un DR inferiore a 1.0, ed era la prima dal 2015. Occorrenze di questo tipo vengono spesso definite come “partite lotteria”, perché sul risultato incide più fortuna del solito.

Non solo Federer ha vinto con una PVT minore del 50% e un DR inferiore a 1.0, ma in ciascuno dei set ha ottenuto numeri ancora più bassi. Ha vinto 23 punti su 55 (41.8%) nel primo, 31 su 64 (48.4%) nel secondo e 41 su 83 (49.4%) nel terzo. Avendo perso malamente il primo set, c’è da aspettarsi un totale così ridotto. Spesso però, numeri scadenti per un’intera partita arrivano da un rendimento mediocre in un set, come può essere per un punteggio di 7-6 1-6 7-6. Coric ha giocato meglio di Federer, almeno in parte, in tutti e tre i set.

Un evento raro

Il vostro sospetto di essere di fronte a un evento raro è fondato. Solo il 4.5% delle partite del circuito maggiore finisce a favore del giocatore che ha vinto meno punti, e solo il 7.2% di quelle in cui il vincitore ha un DR inferiore a 1.0. Solitamente c’è sovrapposizione, ma non sempre. Circa il 4% delle partite sono vinte da un giocatore con una PVT minore al 50% e un DR inferiore a 1.0. Ed è ancora più facile che i singoli set siano vinti dal giocatore che ha fatto più punti. Solo il 2.4% dei set è vinto dal giocatore che ha perso più punti. La frequenza con cui il DR è minore di 1.0 è del 7.4%, circa la stessa che dell’intera partita.

Esiste però un precedente – esattamente uno! – dell’impresa di Federer, vale a dire vincere una partita con una PVT minore del 50% e un DR inferiore a 1.0 in ognuno dei tre set. Stiamo parlando di un singolo episodio in un database con più di 17.000 partite punto per punto del circuito maggiore dal 2010. Inevitabilmente, c’è lo zampino di John Isner.

Ma c’è Isner, come sempre

Nel torneo di Memphis 2017, Isner ha perso il quarto di finale contro Donald Young per 7-6 3-6 7-6. Young ha vinto solo il 46.9% dei punti totali, con un DR di 0.66, entrambi valori che un giocatore che vince la partita difficilmente potrà mai abbassare. Come Federer, Young è andato vicino nei set che ha vinto, con un 49.3% dei punti totali sia nel primo che nel terzo set. Salvando otto palle break su nove e resistendo al servizio di Isner nel tiebreak, Young ha avuto la meglio di un avversario statisticamente superiore.

La vittoria di Federer contro Coric non ha fatto grande leva sul rendimento sulle palle break, anche se i tifosi apprezzeranno la confortante trasformazione di due opportunità su quattro. Si è detto molto della ridotta efficacia di Federer in quel tipo di partite: a fronte di 24 vittorie con un DR inferiore a 1.0, ha subito 49 sconfitte con un DR superiore a 1.0. E spesso la colpa ricade sulle palle break sprecate. Se i giocatori dal servizio dominante tendono a giocare spesso partite equilibrate, Federer è riuscito a vincerne molte senza fare affidamento su quelle in cui la fortuna ha un ruolo preponderante.

Con un posto assicurato nelle pagine più illustri del libro dei record, Federer si sta mettendo in mostra anche nei capitoli più oscuri. Dopo averci deliziato con vittorie a senso unico, finalmente ha portato a casa una partita in cui le statistiche puntavano nella direzione opposta.

Roger Federer, Lottery Winner

Questi giocatori sono simili tra loro?

di Chapel Heel // FirstBallIn

Pubblicato il 10 ottobre 2018 – Traduzione di Edoardo Salvati

Mentre ero alle prese con un’altra indagine che ha richiesto l’estrazione di statistiche cumulate per il circuito maschile, mi sono fermato a riflettere sull’esistenza di due giocatori simili tra loro, o se tutti invece sono diversi nel loro talento, distinguendosi cioè per bravura in determinate aree di gioco. Ci saranno sicuramente molti modi per scoprirlo ma, non essendo l’obiettivo di partenza, volevo comunque usare i dati che avevo già raccolto.

Si tratta di statistiche aggregate dei primi 200 giocatori (alla data del 10 luglio 2018) sul cemento negli ultimi due anni e mezzo, contro avversari la cui classifica non supera il numero 300. Ho eliminato 11 giocatori con meno di 150 game al servizio, perché non sufficientemente rappresentativi in quel tipo d’intervallo.

La costruzione dei sottoinsiemi

Ho suddiviso i giocatori in sottoinsiemi rispetto a ciascuna delle sette seguenti statistiche espresse in percentuale: ace, doppi falli, prime in campo, punti vinti con la prima, punti vinti con la seconda, punti vinti alla risposta sulla prima, punti vinti alla risposta sulla seconda. Ho denominato i sottoinsiemi con lettere comprese tra la A la F e ripartito i giocatori in funzione del loro rendimento rispetto alle statistiche considerate:

  • il sottoinsieme A per giocatori con una deviazione standard dalla media maggiore di 1.5
  • il B con una tra 1.5 e 0.5
  • il C con una tra 0.5 e -0.5
  • il D con una tra -0.5 e -1.5
  • e il sottoinsieme F per giocatori con una deviazione standard dalla media maggiore di -1.5

(in molti dei sottoinsiemi, le statistiche dei giocatori non sono distribuite secondo una normale, quindi non abbiamo una gaussiana dalla forma simmetrica. In particolare, la percentuale di ace, di doppi falli, di prime in campo e di punti vinti alla risposta sulla seconda sono decisamente non lineari. Quello della percentuale di ace è un caso limite vista la presenza di un numero straordinario di artisti dell’ace, e solo Yoshihito Nishioka è incredibilmente peggiore della media).

In tutte le categorie tranne la percentuale di doppi falli, i valori più alti hanno determinato una A e quelli più bassi una F.

L’associazione dei sottoinsiemi

Con un metodo decisamente elementare, ho accostato le lettere che definiscono i sottoinsiemi per verificare eventuali somiglianze tra giocatori in termini di stile o rendimento. Ad esempio, John Isner rientra nella A per tutte le categorie relative al servizio, tranne le B nella percentuale di doppi falli, e nella F per le due categorie alla risposta. Seguendo il precedente ordine, Isner diventa ABAAAFF. Ci sono altri giocatori tra i primi 200 con una sequenza di ABAAAFF sul cemento? Nessuno!

Anzi, di 189 giocatori, solo 10 hanno la stessa sequenza di un altro giocatore e non ci sono tre giocatori che ne condividano una. La tabella elenca i giocatori con una sequenza in comune (tra parentesi).

Fritz - Bedene (BBDBCCC)
Tiafoe - Mayer (CCCCBCC)
Munar - Medvedev (CCCCCBB)
Mahut - Cuevas (CCCCCCD)
Millman - Nishikori (DBCCBBB)
Kohlschreiber - Kecmanovic (DBCCBCC)
Maden - Simon (DBCDCBA)
Jung - Ito (DCBDDBC)
Fabbiano - Albot (DCBFCBB)
Schwartzman - Majchrzak (DCCDCBA)

Degli strani accoppiamenti, eh? Se si includessero parametri come l’altezza o l’età, la maggior parte di questi giocatori verrebbe immediatamente separata. Non penso che quello di John Millman e Kei Nishikori sia un accostamento terribile in termini di stile, anche se è chiaro che non possiedono lo stesso talento (o, almeno, lo stesso rendimento). La coppia formata da Jaume Munar e Daniil Medvedev è assurda.

Parte della ragione di accoppiamenti così inusuali è legata alla presenza di soli cinque sottoinsiemi. Questo determina che un giocatore possa condividere il sottoinsieme di una determinata statistica con un altro giocatore, rispetto al quale però abbia poi un rendimento significativamente migliore, o peggiore. È un circuito dai margini ridotti. Ad esempio, Aljaz Bedene e Taylor Fritz sono molto ravvicinati in tutte le statistiche tranne una, i punti vinti alla risposta sulla prima, nella quale Bedene ha un valore più alto di 1.3% (pur rimanendo nello stesso sottoinsieme). Può sembrare poco, ma è una differenza importante dal punto di vista dei risultati. Non lo è però nello stile, anche se si trovano in due momenti della carriera decisamente diversi.

Normalizzare per il livello di competizione

Un aspetto più importante che spiega la stranezza di questi accoppiamenti è la differenza nel tipo di competizione affrontata. In altre parole, le statistiche della partita sono modellate non solo dalla bravura di un giocatore ma anche da quella dell’avversario. Prendiamo di nuovo Bedene e Fritz. Per quanto abbiano in ogni sottoinsieme un rendimento simile (solitamente, molto simile) la classifica media degli avversari di Bedene sul cemento negli ultimi due anni e mezzo è circa 88, contro 114 per gli avversari di Fritz. La classifica non è la definizione ultima della qualità di un avversario, ma tra 88 e 114 c’è una differenza notevole. Tranne che per Jung – Ito, il divario tra classifiche degli avversari in ciascuna coppia è enorme, con la massima distanza in Schwartzman – Majchrzak e Kohlschreiber – Kecmanovic.

Sarebbe interessante poter normalizzare le statistiche per verificarne il valore contro un avversario comune, per poi ricreare i sottoinsiemi e ripartire nuovamente i giocatori. Nessuno dei modi in cui ipotizzo si possa fare questo passaggio è di facile applicazione, ma ho proceduto ai fini di quest’analisi come segue.

Tipicamente, quando si vuole normalizzare una statistica nello sport, si considera il contesto di riferimento (nel baseball ad esempio, è il caso degli stadi o dei campionati, specialmente nel confronto fra epoche). Nel tennis, estrapolare il contesto è abbastanza difficile. Si può iniziare considerando solo una specifica superficie, sorge poi però il problema del “campionato” inteso in senso più ampio. Sulla carta, le partite riguardano avversari dell’intero universo tennistico.

Combinazioni uniche di giocatori

Nella realtà, per ciascuna finestra temporale, ogni giocatore affronta una combinazione unica di colleghi. Un campione di dati che include le partite dei primi 200 solo contro i primi 300 è di aiuto, ma in due anni e mezzo sul cemento, ogni giocatore dei primi 200 con un numero di partite rilevanti su questa superficie gioca all’incirca contro 50 giocatori dei primi 300, spesso molti di meno. Detto altrimenti, ogni giocatore fa un campionato a sé con un livello di qualità differente.

Il metodo di normalizzazione quindi (almeno per ora) è di stabilire gli avversari di un giocatore nei due anni e mezzo di partite sul cemento, calcolare la loro media cumulata (ponderata) in ciascuna statistica contro i primi 300 e confrontarla con la relativa media complessiva per i primi 200. Dovremmo così arrivare a conoscere il grado di bravura dell’universo di avversari di un giocatore – relativamente alla media per ciascuna statistica dei primi 200 – le cui variazioni positive o negative dalla media complessiva servono per correggere i valori della specifica statistica per il giocatore che stiamo studiando.

Ad esempio, se l’universo di avversari di Fritz è migliore della media nella percentuale di punti vinti alla risposta sulla prima di servizio, possiamo aumentare la sua percentuale di punti vinti sulla prima (la corrispondente statistica) a simulazione di quanto avrebbe ottenuto contro un avversario medio.

Opposizione tra statistiche

In questa sede ho tralasciato la percentuale di doppi falli e le prime in campo. Sono infatti entrambe statistiche su cui dovrebbe incidere la bravura alla risposta dell’avversario ma, a differenza degli altri cinque sottoinsiemi, non esiste una statistica direttamente opposta da rendere il calcolo relativamente agile. Alla percentuale di ace si oppone la percentuale di ace dell’avversario, alla percentuale di punti vinti sulla prima o sulla seconda si oppone la percentuale di punti vinti alla risposta sulla prima o sulla seconda dell’avversario, alla percentuale di punti vinti alla risposta sulla prima o sulla seconda si oppone la percentuale di punti vinti sulla prima o sulla seconda dell’avversario. Non so dire quantitativamente quanto la bravura dell’avversario alla risposta incida sulla percentuale di doppi falli e di prime in campo.

Dopo aver ricostruito i sottoinsiemi con le statistiche normalizzate, si ottengono 11 accoppiamenti di giocatori simili, tra cui un’occorrenza di tre giocatori simili tra loro, come mostrato nella tabella (tra parentesi, la sequenza).

Kecmanovic - Donskoy (CBCCBDC)
Smyczek - Fratangelo (CBCDCCC)
Fritz - Lacko - Seppi (CBDBCCC)
Kudla - Munar (CCCCCCB)
Tiafoe - Mayer (CCCCCCC)
Rosol - Barrere (CCCCDDC)
Novak - Mmoh (CDBDDCC)
Carreno Busta - Pella (DBBDBCB)
Maden - Mannarino (DBCDCBB)
Dzumhur - Albot (DCBFCBB)
Basilashvili - Koepfer (DDCDCCC)

Ammetto di non conoscere così bene tutti questi giocatori da poter dire ad esempio se Barrere ha uno stile in realtà dissimile a quello di Rosol ma, generalmente, la normalizzazione restituisce un elenco molto più ragionevole del precedente. Anzi, ci sono un paio di accostamenti davvero validi, tra cui Smyczek – Fratangelo, Fritz – Lacko – Seppi, Kudla – Munar e Novak – Mmoh. Non sembrano esserci coppie apertamente prive di senso, anche se Basilashvili è indirizzato verso il divorzio da Koepfer.

Noterete che solo una coppia sopravvive alla normalizzazione, cioè quella formata da Frances Tiafoe e Leonardo Mayer. Continua a essere strano saperli accostati in questo modo, ma le loro statistiche normalizzate sono più vicine di quelle non normalizzate, quindi non dipende solo dal fatto che rientrano nel sottoinsieme medio in tutte le statistiche considerate.

Indici di somiglianza

Spesso ho desiderato creare indici di somiglianza alla Bill James, trovando la difficoltà scoraggiante. Quelli di James per i giocatori baseball erano abbastanza chiari perché basati su statistiche non normalizzate. Lo stesso metodo nel tennis richiederebbe solo un aggiustamento dei punti associati alle differenze tra giocatori in varie statistiche. Ritengo però che non sia un sistema efficace. Ricordo di aver generato (molti anni fa) un foglio di calcolo che usava statistiche dei giocatori di baseball normalizzate per epoca e stadio, per poi applicare gli indici di somiglianza.

È invitante fare lo stesso nel tennis, ma la parte relativa alla normalizzazione è ben più complicata, per le ragioni di cui ho parlato. Essenzialmente, ogni giocatore è nel suo personale campionato. E il procedimento qui usato, molto noioso nonostante la semplicità, si riferisce solo a due anni e mezzo di partite, non alla durata di una carriera. Ma si può continuare a sognare.

Are these ATP players similar?

L’effetto della fortuna nei tiebreak

di Jeff Sackmann // TennisAbstract

Pubblicato il 2 gennaio 2019 – Traduzione di Edoardo Salvati

Più volte nel corso degli anni ho scritto di giocatori che vincono tiebreak in misura maggiore o minore rispetto alle attese. Appassionati e commentatori sono propensi a credere che alcuni di loro siano, in quella fattispecie, particolarmente bravi o particolarmente scarsi, esaltando il valore di un servizio dominante alla fine del set o imputando alla debolezza mentale effetti più dannosi che in qualsiasi altra circostanza di gioco.

Secondo le mie ricerche, per la grande maggioranza dei giocatori l’esito di un tiebreak è indissolubilmente legato alla fortuna. Chiarisco il concetto: il risultato di un tiebreak dipende dalla bravura complessiva di chi lo sta giocando, in modo che giocatori più forti vincono più tiebreak. Non ci sono elementi aggiuntivi da fattorizzare. Per quanto durante il tiebreak i giocatori tendono a vincere punti al servizio con un frequenza di poco inferiore, accade così per tutti.

Non esiste un ingrediente magico per il tiebreak

Tuttavia, la singola stagione è sufficientemente corta da permettere ad alcuni giocatori uno scintillante record nei tiebreak, facendoci pensare che possiedano un talento specifico. Nel 2017, John Isner ha vinto 42 dei 68 tiebreak giocati, cioè il 62%. Sulla base della frequenza di punti vinti al servizio e alla risposta contro gli avversari di quei tiebreak, ci saremmo aspettati che ne avesse vinti solo 34, esattamente la metà. Bravura o fortuna, è comunque andato oltre le attese di 8 tiebreak.

Potremmo dire che, con un servizio mostruoso e un solido controllo emotivo, Isner è il tipo di giocatore a cui il tennis ha svelato il segreto di come si vincono i tiebreak. Pur essendo andato oltre le aspettative diverse volte in carriera, anche lui non è in grado di reggere quel livello. Nel 2018 ha giocato 73 tiebreak. Avrebbe dovuto vincerne 41, ma si è fermato a 39.

Volete altri esempi? Va bene un giocatore qualsiasi. Prendiamo Roger Federer, che ha costruito una carriera su un rendimento al servizio inossidabile. Eppure, le sue prestazioni nei tiebreak sono state più o meno neutrali negli ultimi quattro anni. In altre parole, vince punti al servizio e alla risposta nei tiebreak quasi con la stessa frequenza con cui li vince in altri momenti del set. Negli ultimi quattro anni, Robin Haase, il cui record di 17 tiebreak persi di fila non è certamente un vanto, ha un rendimento parallelo a quello di Federer. Nel 2018 è riuscito a gestire meglio la pressione, vincendone due in più delle attese, e finendo nel primo quartile stagionale dei giocatori del circuito maggiore.

Dare un significato alla casualità

In sintesi, il rendimento stagione per stagione nei tiebreak richiama un foglio di calcolo pieno di numeri messi a caso. Un giocatore potrebbe replicare l’anno successivo il buon record avuto nella stagione precedente, solo se però anche il livello di gioco resta alto. Dovesse esistere una componente miracolosa per il tiebreak (a parte saper giocare bene a tennis), i giocatori non ne sono a conoscenza.

Fortunatamente, nelle statistiche sportive non tutti i risultati negativi vengono per nuocere. Si può essere delusi quando una statistica non è predittiva di risultati futuri ma, proprio la mancanza di predittività lascia spazio a un altro tipo di previsione. Se un giocatore ha avuto un anno fantastico nei tiebreak, superando le attese in quella categoria, si tratta probabilmente di fortuna. Di conseguenza, è altrettanto probabile che non avrà la stessa dose di fortuna anche l’anno seguente, e il record complessivo si riallineerà alla sua media.

Tiebreak Oltre le Attese

Il giocatore da osservare per il 2019 è Taylor Fritz, che nel 2018 ha avuto un record stellare di 20 tiebreak vinti e 8 persi. Sulla base del rendimento per l’intera durata di quelle partite, ci saremmo aspettati che ne vincesse solo 13 su 28. Il suo indice di Tiebreak Oltre le Attese (TOA) di +7 è stato il più alto sul circuito maggiore, anche se molti dei colleghi hanno giocato ben più tiebreak.

Non è da escludere a priori che Fritz possegga la combinazione perfetta di nervi d’acciaio e tattica impeccabile che si traduce in vittorie di tiebreak, ma è molto più probabile che a fine stagione il suo record sarà intorno alla parità (al momento della traduzione, Fritz ha 8 tiebreak vinti e 3 persi, n.d.t.). Nel 2017, il primo giocatore dietro a Isner per indice TOA era Jack Sock, è si può dire tranquillamente che la stagione 2018 non sia continuata sulla stessa riga (chiusa infatti con un record di 3-7, n.d.t.).

Migliori e peggiori del 2018

Avendo a mente quel tipo di regressione verso la media, la tabella elenca i migliori e peggiori per indice TOA per la stagione 2018 del circuito maggiore. La colonna TBA si riferisce al numero di tiebreak che un semplice modello avrebbe predetto, mentre la colonna Frequenza Tiebreak Oltre le Attese (FTOA) è la versione indicizzata di TOA e riflette la percentuale di tiebreak vinti sopra o sotto la media.

Indicizzazioni come FTOA hanno solitamente più valore del conteggio di statistiche come il TOA. In questo caso però, una statistica di conteggio diretto potrebbe dare più informazioni, perché considera quali giocatori giocano più tiebreak. Una produttività inferiore da parte di Sam Querrey non è così grave come quella di Cameron Norrie, ma il numero di tiebreak che gioca è il risultato del suo stile, motivo per cui si trova ultimo nell’elenco.

Giocatore      TB  Vinti  TBA     TOA   FTOA  2019  
Fritz          28  20     13.3    6.7   0.24  8-3
Klahn          22  16     10.6    5.4   0.24  5-3
Klizan         16  13     8.1     4.9   0.31  5-5
Nishikori      22  17     12.5    4.5   0.20  6-3
Tomic          18  14     9.6     4.4   0.24  1-6
A. Zverev      23  17     13.2    3.8   0.17  3-5
Ramos          22  15     11.2    3.8   0.17  7-6
Mannarino      25  16     12.3    3.7   0.15  1-6
Wawrinka       21  13     9.6     3.4   0.16  10-7
Del Potro      32  22     18.7    3.3   0.10  0-1
                                                       
Coric          21  8      10.8   -2.8  -0.13  6-5
Shapovalov     30  12     15.0   -3.0  -0.10  6-6
Khachanov      42  20     23.4   -3.4  -0.08  4-8
Karlovic       47  19     22.6   -3.6  -0.08  13-11
Istomin        31  13     16.7   -3.7  -0.12  3-5
Berankis       22  7      10.9   -3.9  -0.18  4-1
Cuevas         21  7      11.3   -4.3  -0.20  9-4
Rublev         18  5      9.6    -4.6  -0.26  5-4
Verdasco       25  8      12.8   -4.8  -0.19  3-2
Bautista Agut  26  10     14.8   -4.8  -0.19  3-8
Norrie         22  5      9.9    -4.9  -0.22  6-7
Querrey        36  12     18.5   -6.5  -0.18  5-5

Chi è nelle posizioni di vertice può attendersi di vedere il proprio record nei tiebreak rientrare alla normalità nel 2019, mentre i giocatori nella parte bassa hanno ragione di sperare in un miglioramento complessivo (la colonna 2019 mostra il record nei tiebreak di ciascuno al momento della traduzione, n.d.t.).

Conversione dei tiebreak in vittorie

I tiebreak sono importanti, e tutti sono d’accordo su questo, ma qual è l’impatto effettivo delle prestazioni positive e negative di cui sto parlando? In altre parole, dato che Kei Nishikori ha vinto 4.5 tiebreak in più delle attese nel 2018 (cioè che avrebbe “dovuto” vincere), come ha inciso questo aspetto sul suo record complessivo di vinte-perse? E, per estensione, cosa potrebbe voler dire per il record del 2019?

La matematica si complica parecchio [1] ma, in ultimo, due vittorie in più nei tiebreak corrispondono all’incirca a una vittoria extra di partita. Il bonus di 4.5 tiebreak di Nishikori equivale a circa 2.25 partite vinte in più. L’anno scorso il suo record è stato 48 vinte e 22 perse. Con una fortuna neutrale nei tiebreak, sarebbe invece stato di 46-24. Rimangono in ogni caso aperte delle questioni.

Convertire il record di vinte e perse in punti validi per la classifica e titoli è molto più complicato, e non ci proverò nemmeno. La fortuna di Nishikori nel tiebreak può trasformare potenziali sconfitte in vittorie, o fare di partite sfiancanti in tre set vittorie più comode in due set. Come collettore di tutte le possibili combinazioni, il TOA di ciascun giocatore ha un valore concreto che possiamo trasformare in vittorie.

Il numero esatto non è così rilevante, lo è molto di più il concetto di fondo. In presenza di un record estremamente positivo o incredibilmente negativo, non serve armarsi di foglio di calcolo per arrivare al numero preciso di tiebreak che un giocatore avrebbe dovuto vincere.

Il ruolo determinante della fortuna

Data una fortuna neutrale, qualsiasi giocatore stabilmente nel circuito maggiore dovrebbe avere un record di tiebreak vinti tra il 40% e il 60% di quelli giocati, il 40% per i giocatori posizionati al margine inferiore e il 60% per i giocatori di élite (nel 2018, la frequenza attesa di Federer era il 60.1%, quella di Sock il 40.9%). Numeri che escono da quell’intervallo, ad esempio il record di 13 su 16 di Richard Gasquet nel 2016, sono inevitabilmente destinati a ritornare sulla terra, con il botto, anche se poche volte in modo così catastrofico come per Gasquet, con 5 vittorie su 17 tiebreak nel 2017.

In qualsiasi tiebreak, l’esito può essere determinato da un servizio superlativo, da un atteggiamento audace alla risposta o da una resistenza mentale fuori dal comune. Nel lungo periodo, si assiste a un livellamento di questi aspetti tale per cui nessun giocatore è sempre bravo o sempre scarso nei tiebreak. È probabile che vinca il più forte, ma la fortuna riveste un ruolo determinante nel risultato finale. E, alla lunga, solitamente quel tipo di fortuna cancella sé stessa.

Note:

[1] Una rapida sintesi della matematica. In una partita al meglio dei tre set, si può raggiungere il tiebreak in tre distinte volte. Cambiare l’esito del tiebreak potrebbe alterare il risultato del primo set, del secondo set, o del terzo set. In termini di probabilità di vittoria, cambiare l’esito del primo set ha un impatto del 50%: a parità di giocatori, il vincitore ha una probabilità del 75% di vincere la partita e lo sconfitto il 25%. Anche l’impatto in termini di probabilità generato dal cambiare il risultato del secondo set è del 50%. O il vincitore vince definitivamente la partita (100%), invece di mandare la partita al terzo (50%), o il vincitore porta la partita al terzo (50%) invece di perderla (0%). Cambiare il risultato del terzo set significa alterare direttamente l’esito della partita, quindi l’impatto in termini di probabilità di vittoria è del 100%.

Qualsiasi partita che viene completata ha un primo e un secondo set, ma meno del 40% delle partite del circuito maggiore va al terzo. La media ponderata tra i tre valori, 50%, 50% e 100% è circa il 58%, e questa sarebbe la nostra risposta se venissero giocate solo partite al meglio dei tre set. La matematica per quelle al meglio dei cinque set è ancora più complessa. È importante sapere solo che in ognuno dei primi quattro set il margine è più ridotto e, per estensione, lo è anche per i tiebreak dei primi quattro set. La ponderazione di questo effetto con la frequenza delle partite al meglio dei cinque set darebbe una precisa tabella di conversione del TOA in vittorie. Pur di non addentrarmi in quel dedalo, mi accontento di utilizzare il più amichevole e approssimativamente corretto valore del 50%.

The Effect of Tiebreak Luck