La crescita da professioniste delle vincitrici di Slam juniores

di Chapel Heel // HiddenGameOfTennis

Pubblicato il 21 aprile 2019 – Traduzione di Edoardo Salvati

In un precedente articolo, ho affrontato la durata della crescita dei vincitori di prove Slam juniores una volta passati al professionismo. È il momento delle vincitrici, in particolare di tutte quelle che dal 1990 hanno vinto almeno uno Slam juniores, e del loro avanzamento nel raggiungere determinati traguardi da professioniste. Si tratta di 99 giocatrici in 117 prove di Slam juniores.

Vinco ora, vinco anche dopo

La semplice tabella che segue mostra l’età media della vincitrice juniores per i quattro tornei, il numero di tornei di singolare vinti sul circuito maggiore, i Premier vinti, gli Slam vinti (al momento) e la mediana dei guadagni in carriera (compreso il doppio, i Challenger, etc).

I guadagni in carriera tengono conto dell’inflazione. Mi interessava solo un’approssimazione, quindi ho usato l’indice dei prezzi al consumo deli Stati Uniti, anche se la maggior parte delle giocatrici non è americana. Inoltre, per evitare eccessive complicazioni, ho rapportato i valori all’anno a metà della carriera di una giocatrice (ad esempio, ai fini dell’analisi Victoria Azarenka ha giocato dal 2003 al 2019 e l’indice dei prezzi al consumo è quello del 2011). Ho preso la mediana perché la media avrebbe confuso le idee: in particolare Azarenka, Martina Hingis e Agnieszka Radwanska hanno vinto molti più premi partita e tornei delle altre vincitrici juniores.

Da ultimo, il numero in fondo alla colonna “Mediana $$” rappresenta la mediana dei guadagni di tutti le giocatrici nei quattro Slam juniores, avendo tolto le vincitrici multiple, vale a dire che non è la media o la mediana delle mediane nella colonna. Lo stesso è per il corrispettivo valore nella colonna “Mediana Classifica Massima”. Inoltre, come ho spiegato in un altro articolo, è molto difficile stabilire quale torneo possa rientrare nella categoria Premier di quelli precedenti alla ridefinizione (relativamente recente) della struttura dei tornei della WTA.

Numeri migliori degli uomini

Vale la pena sottolineare che l’età media delle vincitrici è di ben un anno inferiore a quella dei vincitori. Complessivamente, le vincitrici hanno anche medie e mediane migliori dei vincitori, con 121 titoli in più vinti, 8 Slam in più, circa un milione di dollari in più in guadagni mediani e una mediana della classifica massima migliore di 24 posizioni rispetto ai vincitori di Slam juniores.

In aggregato, si potrebbe pensare che la vincitrice di uno Slam juniores vincerà poi 6 o 7 tornei sul circuito maggiore (655 diviso 99), con un 50% di probabilità di vincere un evento Premier. Così non è naturalmente. Hingis, Justine Henin e Lindsay Davenport hanno vinto 141 di quei 655 titoli, quasi la metà dei Premier e quasi la metà degli Slam. Tuttavia, a differenza dei vincitori in cui meno della metà ha vinto anche un solo torneo del circuito maggiore, tra le vincitrici il 60% ha vinto un torneo WTA.

Sapere quando ritirarsi

La mediana dei guadagni di circa 2.2 milioni di dollari è molto più alta di quanto visto per i vincitori juniores i quali hanno una carriera tra i professionisti di circa dieci anni dalla vittoria dello Slam, riuscendo a malapena a vivere dei premi partita, visti gli ingenti costi annuali. Dopo aver escluso i guadagni estremi di Federer, Murray, Wawrinka, Marin Cilic e Andy Roddick, e calcolato la media e la deviazione standard dei guadagni in carriera dei rimanenti giocatori, un campione di Slam juniores ha una probabilità del 24% di guadagnare non più di 250.000 dollari in carriera…prima delle spese.

Replicare la stessa metodologia in campo femminile è marcatamente più complesso. In primo luogo, i casi estremi sono molto rari. Più di una dozzina delle 99 vincitrici del campione considerato hanno guadagnato 15 milioni di dollari (tenendo conto dell’inflazione). Altrettanto importante, le vincitrici sanno quando è arrivato il momento di ritirarsi. Dei vincitori e vincitrici juniores che non sono più in attività, l’età media a cui le vincitrici si sono ritirate è di quattro interi anni più bassa di quella dei vincitori.

Risalire la classifica

La tabella che segue mostra la percentuale di giocatrici che raggiungono determinati traguardi una volta diventate professioniste. Le prime colonne si riferiscono a traguardi in termini di classifica, le ultime due a titoli sul circuito maggiore e Slam.

Ci sono 50 percentuali e, nel confronto con la versione maschile, le vincitrici ottengono un record di 47-1-2 (vittorie, pareggi, sconfitte). Il vincitore degli US Open juniores ha il 10% di probabilità di arrivare al numero 1 della classifica, contro il 6.7% delle vincitrici, ma è di poca importanza. Si parla infatti di tre juniores uomini contro due donne. Le due percentuali di pareggio si riferiscono al raggiungimento del numero 1 e alla vittoria di uno Slam dopo aver vinto gli Australian Open juniores, entrambe prive di importanza.

Sembra quindi che, rispetto ai vincitori, una campionessa Slam juniores abbia molte più probabilità di una solida carriera. Tralasciando le categorie con campioni ridotti (in particolare il numero 1 e le vittorie negli Slam), le vincitrici hanno il 50% di probabilità in più dei vincitori di entrare tra le prime 50 e tra le prime 20, e il 33% in più di vincere un torneo di singolare del circuito maggiore. Vale la pena riflettere su questi numeri. Se la tendenza storica si mantiene tale, la vincitrice di una prova Slam juniores ha circa il 50% di probabilità di entrare tra le prime 20, più di una probabilità su quattro di entrare tra le prime 10 e quasi una su cinque tra le prime 5. Se ne deduce quindi che la ricerca di una futura promessa tra le vincitrici di Slam juniores è più redditizia che tra i vincitori.

Appunti relativi allo specifico torneo

Delle brevi considerazioni a margine.

Australian Open

Come per i vincitori, le vincitrici di Australian Open juniores ottengono meno successo delle vincitrici degli altri tre Slam juniores

Roland Garros

Nessun vincitore del Roland Garros juniores dal 1990 al 2018 è arrivato al numero 1 della classifica mondiale. Per contro, ci sono più vincitrici del Roland Garros juniores che hanno raggiunto il numero 1 – ben 5 – di qualsiasi degli altri Slam juniores. La mediana del picco massimo di classifica delle vincitrici del Roland Garros juniores è di 14!

Halep

Tra le campionesse juniores dal 2007 (in qualsiasi dei quattro tornei), Halep è l’unica vincitrice di uno Slam da professionista

Vincitrici multiple

Ci sono 15 vincitrici multiple di Slam juniores.

Al pari dei vincitori, anche le vincitrici juniores hanno raggiunto buoni risultati. La mediana dei guadagni è notevolmente più bassa di quella maschile, in parte dovuta alla disparità di premi partita. La mediana di classifica massima dei vincitori è di quattro posizioni peggiore rispetto a quella delle vincitrici. Le vincitrici multiple hanno 47 titoli in più e 8 Slam in più rispetto ai vincitori. Come per i vincitori, i guadagni includono anche i premi del doppio, ma non le altre colonne.

Vincere tre volte è meglio di due? Con soli due vincitori di tre Slam a testa, Gael Monfils (ottima carriera) e Daniel Elsner (di cui non avevo mai sentito parlare), non si sono potute trarre grandi conclusioni. Tra le donne, abbiamo Magdalena Maleeva (ottima carriera), Hingis (nella Hall of Fame) e Anastasia Pavlyuchenkova (ottima carriera).

Durata della crescita

Siamo in grado di calcolare la probabilità con cui le vincitrici di Slam juniores raggiungono determinati traguardi da professioniste, ma non la velocità con cui lo fanno (se mai ci riescono). Ho misurato il tempo trascorso in mesi (arrotondato) tra la data della vittoria di uno Slam juniores per una giocatrice e il raggiungimento di quei traguardi. Il grafico dell’immagine 1 mostra le curve per ciascun torneo con il numero di mesi sull’asse delle ordinate.

IMMAGINE 1 – Durata della crescita (in mesi)

Un numero importante di campionesse juniores erano già tra le prime 200 al momento della vittoria di uno Slam juniores. Inoltre, Angelique Widjaja ha vinto il titolo al Roland Garros con una classifica tra le prime 125 e avendo già un trofeo sul circuito maggiore!

Minore variazione ma più tempo per entrare nelle prime 20

Si assiste anche a una variazione minore tra gli Slam juniores femminili rispetto a quelli maschili: le quattro curve del grafico seguono un andamento ragionevolmente simile. Le curve dei vincitori erano anche più piatte, con una progressione più stabile verso il vertice. Le vincitrici invece passano più velocemente da un livello al successivo, fino alle prime 50. Per passare però poi alle prime 20, la fase di attesa è più lunga di quanto si verifica tra i vincitori, da cui l’andamento più verticale delle curve per quella sezione del grafico.

In media, servono due anni e tre mesi dalle prime 50 alle prime 20, cioè quasi un anno di più dei vincitori che sono arrivati fino a quelle posizioni. D’altro canto, le vincitrici raggiungono il primo titolo quasi otto mesi prima e chi riesce ad arrivare nelle prime 5 lo fa in media 18 mesi prima dei vincitori di Slam juniores.

Aggregando i dati dei quattro Slam juniores femminili per ognuno dei traguardi citati, oltre al primo “vero” Slam raggiunto, otteniamo il grafico a scatola dell’immagine 2. L’asse delle ordinate riporta il numero di mesi. Il colore verde rappresenta il terzo quartile e il blu il secondo quartile. Visto che è preferibile una crescita più rapida, le scatole blu sono migliori delle verdi. I cerchi dal contorno blu indicano i valori estremi. Ad esempio, sono servite 107 settimane a Kristina Kucova per entrare tra le prime 10 dopo aver vinto gli US Open juniores 2007, cioè una durata nettamente fuori media (che per gli US Open è di circa 22 mesi).

IMMAGINE 2 – Finestre di crescita

Chi è indietro?

Grazie a queste finestre temporali, possiamo vedere quali tra le recenti vincitrici di Slam juniores sono ancora in corsa per raggiungere determinati traguardi. Allo scopo, utilizzo finestre aggregate dal grafico a scatola e non quelle di crescita specifiche per torneo. Non mi spingo più in la dei primi 10 anche per le vincitrici – perché da quel punto il campione di dati inizia a frammentarsi – e il primo titolo. Questo significa che sono rilevanti solo le vincitrici dal 2012, rispetto al 2013 per i vincitori, visto il periodo di crescita più lungo necessario a entrare tra le prime 20.

Se una giocatrice ha già raggiunto il traguardo, scrivo il numero di mesi nella cella. Ma se è in ritardo (cioè fuori dal vertice del terzo quartile), lo sfondo è rosso con il carattere in bianco. Dato che, ovviamente, è meglio avere una crescita più rapida, utilizzo il carattere in blu se si è sotto la mediana – cioè la giocatrice ha ancora molto tempo – e uno sfondo verde se si è nel terzo quartile, cioè se il tempo a disposizione è sempre meno ma ancora non in modo irrecuperabile. Lo sfondo è rosso se la giocatrice ha mancato il terzo quartile.

Riepilogando, se c’è solo il numero nella cella, la giocatrice è in posizione ottimale. I numeri bianchi su sfondo rosso indicano un passaggio intermedio di crescita più lenta del normale. Le celle blu vanno bene, le verdi non sono granché e quelle rosse senza numeri vanno male.

IMMAGINE 3 – Tabella riepilogativa della crescita delle vincitrici di Slam juniores con codifica tramite colori

Un’attesa più lunga per entrare nelle prime 200

Per via della più lunga durata di crescita per entrare nelle prime 20 e andare oltre, ci sono molte più celle blu nella metà destra della tabella, se paragonata a quella dei vincitori. È anche interessante il numero di traguardi raggiunti ma con ritardo sulla progressione attesa (i numeri bianchi su sfondo rosso). Siamo principalmente nella fase tra le prime 200 e le prime 125, e credo dipenda dal fenomeno già citato, per cui alcune giocatrici erano nelle prime 200 e prime 125 quando hanno vinto lo Slam juniores.

Sebbene delle giocatrici nella tabella solo Annika Beck e Amanda Anisimova siano esempio di questo aspetto, la media di tutte le vincitrici juniores include 17 giocatrici che erano già nelle prime 200 alla loro vittoria, riducendo la durata della crescita. È per questo che non darei troppo peso agli undici mesi attesi di crescita per entrare nelle prime 200. Più probabilmente siamo in presenza di un tempo doppio, considerando la quantità di numeri bianchi su sfondo rosso per quella colonna.

Alcune considerazioni su giocatrici singole o gruppi di giocatrici.

Townsend

Anche se sempre un po’ tardi sulla progressione, Taylor Townsend ha raggiunto diversi traguardi, quindi è difficile pensare che non possa entrare tra le prime 50 dalla sua attuale 84esima posizione. La situazione può cambiare rapidamente nella classifica femminile, anche se le prime 50 sembrano rappresentare per lei un punto di arrivo.

Beck e Bouchard

Non penso che Beck e Eugenie Bouchard siano giocatrici simili, ma osserviamo quanto la durata della loro crescita sia, o sia stata, analoga. Beck si è ritirata nel 2018, ma in realtà ha smesso di giocare nel 2017 per via di infortuni, prima di compiere 24 anni. Annunciando il ritiro ha detto di avere altri aspirazioni oltre al tennis, quindi ha lasciato. Si può pensare che Beck non avesse il talento per stare nel lungo periodo dietro a Bouchard – la quale a sua volta ha avuto delle battute d’arresto – ma Beck ha vinto due tornei, e Bouchard è ancora ferma a uno.

Konjuh

Ana Konjuh era in linea con tutti i traguardi, ma è stata tradita dal gomito. A marzo si è sottoposta a un intervento chirurgico al legamento collaterale dell’ulna, noto anche con il nome di “operazione Tommy John”, che suona molto più preoccupante. Ha almeno un anno prima di riprendere qualsiasi forma di tennis competitivo. È probabile che la cella rossa delle prime 10 nella sua tabella non si riempia di un numero bianco, ma è interessante pensare a dove sarebbe potuta arrivare.

Linee pulite e cieli blu

Solo Alexander Zverev, tra i vincitori di Slam juniores, vanta un linea completamente pulita, senza celle vuote o con sfondo rosso. Tra le vincitrici abbiamo invece Bouchard, Belinda Bencic e Jelena Ostapenko che però, una volta raggiunti i traguardi, hanno smarrito la strada.

Nel frattempo Anisimova (che ha vinto il primo titolo a Bogotà 2019) e Iga Swiatek (che ha giocato la prima finale a Lugano 2019) stanno raggiungendo i loro traguardi in direzione di cieli, o celle, sempre più blu.

Tic Toc (ma è un orologio che rimane indietro?)

Marie Bouzkova è arrivata tardi a ogni traguardo, ma al momento non è lontana dalle prime 100. La tabella segnala il suo ritardo anche per i prossimi due traguardi, e non è un buon segno. Ho guardato alcune partite e, in termini di talento, penso possa raggiungere le prime 50 (magari anche le prime 40). Ha vinto gli US Open juniores 2014, e ha solo vent’anni.

Tra le vincitrici più recenti, Marta Kostyuk è entrata tra le prime 200 dopo il previsto, mentre nei tempi giusti tra le prime 125. Si trova ora allo scadere per l’ingresso tra le prime 100, e decisamente lontano vista la 245esima posizione. Possiamo dire che è ancora in tempo – anzi, è quello che ho scritto – e non la si può dare per persa. Ha vinto gli Australian Open juniores quando aveva solo 14 anni e mezzo e alla fine di giugno ne compirà 17.

Più bassa l’età della vittoria, migliore la carriera

Per alcune giocatrici, specialmente quelle che hanno vinto lo Slam juniores quando erano molto giovani, il tempo potrebbe interrompersi. I dati dell’articolo (e lo stesso per i vincitori juniores) misurano la distanza tra la vittoria in uno Slam juniores e un traguardo da professioniste, non l’età in cui questo si è verificato. La progressione verso il vertice del tennis non può essere sempre misurata a partite dall’età, perché in quel caso si ipotizza che ogni giocatrice raggiunga l’apice nello stesso momento. Il successo in uno Slam juniores fornisce indicazione del talento di una giocatrice, a prescindere dall’età.

Tuttavia, la crescita successiva alla vittoria potrebbe essere influenzata proprio dall’età della giocatrice. Ad esempio, l’età media delle vincitrici di Slam juniores è 16.5, ma ce ne sono diverse sotto i 16 anni come nel caso di Kostyuk: Maleeva (tre volte), Mirjana Lucic (due), Virginie Razzano (due), Jelena Jankovic, Barbora Strycova, Azarenka, Pavlyuchenkova (due), Townsend e Konjuh. 

È un elenco niente male, ed è solo quello delle vincitrici con meno di 16 anni degli Australian Open. Ho parlato del fatto che Hingis ha vinto il Roland Garros juniores due volte, di cui una a quattro mesi dai 13 anni e la seconda un anno dopo?!! Cori Gauff è entrata nel tabellone principale a Miami 2019 a soli 15 anni, nemmeno a un anno di distanza dalla vittoria del Roland Garros juniores.

Pur in assenza di prove inconfutabili, la mia idea è che le giocatrici che vincono Slam juniores a un’età molto più bassa della media beneficiano poi di una carriera decisamente migliore. Per adesso, mi fermo qui.

Girls Grand Slam Winners Developing as Pros, or “Tick Tyock, Kostyuk”

La crescita da professionisti dei vincitori di Slam juniores

di Chapel Heel // HiddenGameOfTennis

Pubblicato il 9 aprile 2019 – Traduzione di Edoardo Salvati

Nella maggior parte degli sport americani, ci sono organizzazioni che seguono da vicino lo sviluppo di giocatori di grande talento in una specifica disciplina, sia durante il liceo che nel periodo universitario, coloro che vengono chiamati promesse. Per quanto ne sappia, a eccezione della classifica ufficiale (in cui c’è comunque estrema confusione nelle posizioni molto distanti dal vertice), nessuno si premura di valutare promesse nel tennis con una metodologia coerente e mettere poi a disposizione di tutti i risultati. Le federazioni nazionali, e probabilmente alcuni centri o scuole private, compilano un elenco interno di giocatori promettenti, che appunto però non è reso pubblico.

Nel tennis, gli appassionati assegnano a un giocatore l’appellativo di promessa in modo molto più destrutturato. Magari da quando inizia a vincere molte partite sul circuito Challenger, magari perché arriva da una scuola di tennis prestigiosa, o magari perché è nell’orbita di un giocatore già affermato nel circuito maggiore che ne elogia la bravura. A volte perché vince un paio di partite in uno Slam o perché ottiene un risultato a sorpresa da sfavorito sempre in uno Slam. Oppure, perché vince uno Slam juniores.

In questo articolo, ho esaminato tutti i vincitori di Slam juniores dal 1990 e seguito il loro percorso nel raggiungimento di determinati traguardi da professionisti. Si tratta di 101 giocatori in 117 prove di Slam juniores.

Se vinco ora, vinco anche dopo?

La mia percezione è che si tende a supporre che il successo negli Slam juniores presagisca quello sul circuito maggiore, perché quando un giocatore vince sul circuito maggiore spesso i giornalisti ne richiamano la vittoria in uno Slam juniores e si pensa che, allora, deve essere quello il motivo. Forse è così per qualche giocatore, certamente non lo è per tutti.

La tabella mostra l’età media del vincitore di Slam juniores per i quattro tornei, il numero di tornei di singolare vinti sul circuito maggiore, i Master 1000 vinti, gli Slam vinti (al momento) e la mediana dei guadagni in carriera (compreso il doppio, i Challenger, etc).

Nei Master 1000 sono comprese anche le Finali di stagione. I guadagni in carriera tengono conto dell’inflazione. Mi interessava solo un’approssimazione, quindi ho usato l’indice dei prezzi al consumo degli Stati Uniti, anche se la maggior parte dei giocatori non è americana. Inoltre, per evitare eccessive complicazioni, ho rapportato i valori all’anno a metà della carriera di un giocatore (ad esempio, Jurgen Melzer ha giocato dal 1999 al 2019 e l’indice dei prezzi al consumo è quello del 2009). Ho preso la mediana perché la media avrebbe confuso le idee, vale fra tutti il caso di Roger Federer che ha vinto Wimbledon juniores. Da ultimo, il numero in fondo alla colonna “Mediana $$” rappresenta la mediana dei guadagni di tutti i giocatori nei quattro Slam juniores, avendo tolto i vincitori multipli, vale a dire che non è la media o la mediana delle mediane nella colonna. Lo stesso è per il corrispettivo valore nella colonna “Mediana Classifica Massima”.

Comunque non me la passerò male, no?

In aggregato, si potrebbe pensare che il vincitore di uno Slam juniores vincerà poi circa 5 tornei sul circuito maggiore (534 diviso 101) e probabilmente un Master 1000. Così non è naturalmente. Federer, Andy Murray e Stanislas Wawrinka hanno vinto 162 di quei 534 titoli, più della metà dei Master 1000 e 26 Slam su 29. In realtà, meno della metà dei campioni Slam juniores ha vinto anche un solo torneo del circuito maggiore.

Il guadagno mediano di circa 1.2 milioni di dollari non sembra così malvagio, ma la maggior parte dei giocatori ha una finestra di circa dieci anni da quando ha vinto uno Slam juniores. Se si ipotizza che per mantenersi sul circuito servono circa 75.000 dollari all’anno, un giocatore guadagna circa 45.000 dollari annui. E questo per chi ha risultati nella media, gli altri fanno molta più fatica. Dopo aver escluso i guadagni estremi di Federer, Murray, Wawrinka, Marin Cilic e Andy Roddick, e calcolato la media e la deviazione standard dei guadagni in carriera dei rimanenti giocatori, la probabilità che un campione di Slam juniores guadagni non più di 250.000 dollari in carriera è del 24%. Non proprio il massimo!

Continueresti la carriera tennistica se, subito dopo aver vinto uno Slam juniores, ti dicessero che c’è una probabilità del 24% che subirai perdite nette di centinaia di migliaia di dollari? Probabilmente si, perché sei euforico e perché “tanto non succede a me”.

Risalire la classifica

La tabella che segue mostra la percentuale di giocatori che raggiungono determinati traguardi una volta diventati professionisti. Le prime colonne si riferiscono a traguardi in termini di classifica, le ultime due a titoli sul circuito maggiore e Slam.

Sono abbastanza indeciso sulla posizione da prendere relativamente a queste percentuali. Un giocatore può avere una carriera decente se rimane tra i primi 100, e ha circa il 60% di probabilità che accada se ha vinto uno Slam juniores. E una probabilità di circa il 30% di entrare tra i primi 20 sembra abbastanza valida.

D’altro canto, dopo che hai vinto uno Slam juniores probabilmente ritieni di avere una probabilità molto più alta di raggiungere il vertice e diventare qualcuno. Eppure, circa un terzo dei giocatori non entra tra i primi 125, che significa una carriera con pochi ingressi diretti nel tabellone principale di un torneo del circuito. E questo spiega, naturalmente, i risultati trovati in precedenza per i guadagni in carriera.

Appunti relativi allo specifico torneo

Ci sono molti altri spunti e domande interessanti che si possono trarre dai dati rispetto al singolo torneo. Non voglio dedicarvi troppo tempo perché sono una deviazione dal tema centrale dell’articolo, ma ce ne sono un paio che meritano una breve digressione.

Australian Open e US Open

Perché, in generale, i vincitori dell’Australian Open juniores hanno poi un rendimento ben peggiore rispetto ai vincitori degli US Open juniores? Forse perché gli US Open arrivano a stagione inoltrata? C’è poca differenza nell’età media dei rispettivi vincitori, ma è probabile che tra gennaio e settembre di quegli anni cruciali di sviluppo i giocatori acquisiscano molta esperienza a distanza anche solo di qualche mese.

Roland Garros

Nessun vincitore del Roland Garros juniores dal 1990 al 2018 è arrivato al numero 1 della classifica mondiale.

Dal 2007, i vincitori del Roland Garros juniores hanno vinto un solo titolo del circuito maggiore (Andrey Rublev a Umago 2017). Forse ancora più sorprendente, Rublev è l’unico vincitore di Roland Garros juniores dal 2007 a essere entrato tra i primi 50.

Wimbledon

Wimbledon è in linea con gli altri Slam in molte categorie, ma a partire dai primi 20 ha una riduzione in percentuale decisamente più marcata.

Master 1000

Dal 2006, un vincitore di Slam juniores ha vinto solo cinque Master 1000, e ci sono riusciti in due (Grigor Dimitrov e Alexander Zverev) su 35 giocatori.

Vincitori multipli

Ci sono 14 vincitori multipli di Slam juniores, ma ai nostri fini escludiamo Tseng Chun-hsin, che ne ha vinti due l’anno scorso e ha 17 anni (e ancora con una classifica nei 400). La tabella riporta alcuni dei dati visti in precedenza, ma relativi ai migliori 13 giocatori.

A indicazione di una carriera di successo duraturo sono numeri per cui non servono spiegazioni, anche se le vittorie negli Slam degli adulti sono difficili da ottenere, come in effetti dovrebbe essere. I guadagni includono anche i premi del doppio, ma non le altre colonne e con Leander Paes nell’elenco (da giovane, un singolarista di buon livello) è d’obbligo citare i suoi 54 titoli (tra cui ben 8 Slam!) e il numero 1 della classifica di doppio. Senza contare le vittorie nel doppio misto e il ruolo da gregario nel film Charlie e la fabbrica di cioccolato (per la somiglianza con l’attore Nitin Ganatra, n.d.t.).

Vincere tre volte è meglio di due? Non ci sono abbastanza dati per dirlo. Dal 1990, solo due giocatori hanno vinto tre prove di Slam juniores: Gael Monfils, che è evidentemente un ottimo giocatore anche se si pensa che i suoi risultati sono stati inferiori alle attese e Daniel Elsner, di cui non ho mai sentito parlare.

Durata della crescita

Siamo in grado di calcolare la probabilità con cui i vincitori di Slam juniores raggiungono determinati traguardi da professionisti, ma non la velocità con cui lo fanno (se mai ci riescono). Ho misurato il tempo trascorso in mesi (arrotondato) tra la data della vittoria di uno Slam juniores per un giocatore e il raggiungimento di quei traguardi. Il grafico dell’immagine 1 mostra le curve per ciascun torneo con il numero di mesi sull’asse delle ordinate.

IMMAGINE 1 – Durata della crescita (in mesi)

Siccome nessun vincitore del Roland Garros juniores dal 1990 è arrivato al numero 1 della classifica, ho impostato la durata artificiosamente in modo che uscisse dal grafico. Non si tratta comunque di una statistica chiave, perché di 101 giocatori univoci, solo quattro sono diventati numeri 1 (Federer, Murray, Roddick e Marcelo Rios), redendo il campione troppo ridotto per essere significativo.

Aggregando i dati dei quattro Slam juniores per ognuno dei traguardi citati, oltre al primo “vero” Slam raggiunto, otteniamo il grafico a scatola dell’immagine 2. L’asse delle ordinate riporta il numero di mesi.

Grafico a scatola

Se non si ha familiarità con il grafico a scatola, le porzioni superiore e inferiore delle linee che si estendono in verticale rappresentano rispettivamente il valore massimo e minimo.

La linea in mezzo alla scatola è la mediana, mentre la “x” interna alla scatola è la media. Il colore verde esprime il terzo quartile e il blu il secondo quartile. Visto che è preferibile una crescita più rapida, le scatole blu sono migliori delle verdi. I cerchi dal contorno blu indicano i valori estremi. Ad esempio, sono servite 142 settimane a Razyan Sabau per entrare tra i primi 125 dopo aver vinto Wimbledon juniores 1993, cioè una durata nettamente fuori media (che per Wimbledon è di circa 40 mesi).

IMMAGINE 2 – Finestre di crescita

Se il fatto che la porzione verde della finestra di crescita per i primi 10 non è chiaramente sopra alla verde dei primi 20 crea confusione, è probabile che sia dovuto solo alla dimensione del campione. Ci sono 23 occorrenze per i primi 10, 17 per i primi 5 e, come detto, solo 4 per il numero 1.

Chi è alla pari?

Grazie a queste finestre temporali, possiamo vedere quali tra i recenti vincitori di Slam juniores sono ancora in corsa per raggiungere determinati traguardi. Allo scopo, utilizzo finestre aggregate dal grafico a scatola e non quelle di crescita specifiche per torneo. Non mi spingo più in la dei primi 10 in questo caso – perché da quel punto il campione di dati inizia a frammentarsi – e il primo titolo, che significa che sono rilevanti solo i vincitori dal 2013.

Vorrei saperne di più su come costruire un grafico da queste informazioni, ma la cosa migliore che posso fare è associare dei colori a una tabella. Se un giocatore ha già raggiunto il traguardo, scrivo il numero di mesi nella cella. Ma se è in ritardo (cioè fuori dal vertice del terzo quartile), lo sfondo è rosso con il carattere in bianco. Visto che, ovviamente, è meglio avere una crescita più rapida, utilizzo il carattere in blu se si è sotto la mediana – cioè il giocatore ha ancora molto tempo – e uno sfondo verde se si è nel terzo quartile, cioè se il tempo a disposizione è sempre meno, ma non ancora in modo irrecuperabile. Lo sfondo è rosso se il giocatore ha mancato il terzo quartile.

Riepilogando, se c’è solo il numero nella cella, il giocatore è in posizione ottimale. I numeri bianchi su sfondo rosso indicano un passaggio intermedio di crescita più lenta del normale. Le celle blu vanno bene, le verdi non sono granché e quelle rosse senza numeri vanno male.

IMMAGINE 3 – Tabella riepilogativa della crescita dei vincitori di Slam juniores con codifica tramite colori

Kyrgios

Si fa notare più di tutte la cella rossa di Nick Kyrgios nella colonna dei primi 10. Ma non va dato troppo peso. Come detto, la dimensione del campione dei primi 10 si sta frammentando, motivo per il quale la parte negativa nel grafico a scatola è inferiore a quella dei primi 20. Va aggiunto però che i giocatori davvero fenomenali sono entrati tra i primi 10 antecedentemente alla fase della carriera in cui si trova Kyrgios, quindi un po’ di preoccupazione (per lui) la desta.

I tardivi

Christian Garin, Gianluigi Quinzi e Noah Rubin hanno raggiunto alcuni dei traguardi, ma sempre in ritardo, e sono anche indietro su tutti quelli successivi. Le recenti prestazioni di Garin lo hanno portato vicino ai primi 50 in modo da far pensare che abbia margini di crescita inespressi, ma il passaggio dal numero 73 al 50 è più ampio di quanto non lo sia nella realtà.

Stelle amiche

Tutti i recenti vincitori godono di buona salute, in molti casi perché i loro titoli sono freschi. Alcuni però si distinguono più di altri. Molta attenzione è stata data ai due canadesi Denis Shapovalov e Felix Auger-Aliassime che, rispetto a questa metrica, sono chiaramente sulla giusta traiettoria, o anche in anticipo sui tempi. Hanno ricevuto molta meno attenzione invece vincitori più recenti come Alexei Popyrin e Alejandro Davidovich Fokina, che sembrano anche loro sulla giusta traiettoria.

Tic toc

Per Geoffrey Blancaneaux il momento è arrivato, inesorabile. Si trova nella parte inferiore della finestra per i primi 200 e i primi 125. Gli serve quindi una scalata rapida e, dal numero 498, non sembra che sia nelle sue corde. Zsombor Piros ha un po’ più di tempo di Blancaneaux, ma al numero 361 deve rendersi conto di aver mancato gli obiettivi (letteralmente) e che si sta avvicinando, in carriera, a un punto di non ritorno.

Boys Grand Slam Winners Developing as Pros, or “Geoffrey Blancaneaux, You’re On the Clock”

Esiste un calo emotivo dopo una finale ATP?

di Chapel Heel // HiddenGameOfTennis

Pubblicato l’1 gennaio 2019 – Traduzione di Edoardo Salvati

Se siete come me, quando vedete due giocatori in finale e sapete che la settimana seguente saranno impegnati in un altro torneo, vi chiedete come potranno giocare poco dopo aver disputato una finale. Anche se poi nelle mie previsioni ufficiali non ne tengo conto, mentalmente penso che faranno più fatica, perché sembra che, arrivando da una finale, possano forse subire un calo mentale nei primi turni. Vediamo se la mia teoria da profano è supportata dai numeri.

Stanchezza fisica, mentale ed emotiva

Una parte del quesito verte sulla stanchezza fisica e mentale derivante dal giocare molte partite in poco tempo. Per raggiungere la finale, le teste di serie devono aver giocato almeno quattro partite, le non teste di serie che non devono passare per le qualificazioni almeno cinque e i qualificati almeno sette. Questo vale solo per i tornei con 28 giocatori nel tabellone principale. È tema che Jeff Sackmann ha già affrontato su HeavyTospsin, e ne suggerisco la lettura.

Un’altra parte non coinvolge la fatica, ma lo sforzo emotivo. Una finale del circuito maggiore è già di per sé un’impresa, anche per chi ci arriva regolarmente. A maggior ragione, i giocatori che ci riescono di rado, affrontano vere e proprie montagne russe emotive. Pur affermando sempre che la settimana è stata fantastica anche di fronte a una sonora sconfitta, pensate che rientrando nello spogliatoio si congratulino con il proprio angolo? Sarebbe comprensibile quindi se gli sconfitti avessero difficoltà nel farsi trovare pronti per la prima partita della settimana seguente.

Naturalmente, i vincitori sono contenti, quindi perché dovrebbero provare un vuoto emotivo nei primi turni del torneo successivo? Non sono un professionista di tennis, ma il mio è un lavoro ad alta pressione e responsabilità, e la fine di un progetto è accompagnata da soddisfazione ma anche da un po’ di rilassamento emotivo. I giorni conclusivi hanno un sapore speciale che manca in quelli che arrivano subito dopo. Cala l’adrenalina e ci si accorge di aver davvero bisogno di dormire. Forse succede lo stesso per i vincitori di un torneo.

Quali finali dovremmo esaminare?

Ho considerato tutti i finalisti a partire dal 2007. Si tratta di circa 1600 partite-giocatore. Naturalmente, ho poi dovuto restringere il campione a quei giocatori che hanno giocato la settimana successiva, un numero molto più ridotto. Per alcuni è il calendario personale, per altri è quello dell’ATP (ad esempio, non ci sono tornei la settimana che segue la conclusione di uno Slam e non ho considerato la Coppa Davis, perché sono partite per le quali i giocatori si fanno trovare pronti più facilmente).

Non ho incluso le circostanze in cui il torneo successivo inizia a metà della settimana, come ad esempio l’Indian Wells Masters, nel quale i finalisti di Dubai, Acapulco e San Paolo non scenderebbero in campo, al più presto, prima di mercoledì. Un tempo sufficiente cioè a cancellare qualsiasi strascico emozionale. Ho escluso anche le situazioni in cui un giocatore è arrivato a una finale ATP per poi giocare subito dopo un torneo Challenger.

Come ci si poteva aspettare, sono i giocatori di vertice a dominare l’elenco delle finali. E lo vedo come un problema nel determinare l’esistenza di uno strascico emozionale. Perché in caso affermativo, sono convinto che giocatori come Roger Federer, Rafael Nadal, Novak Djokovic e altri che sono spesso in finale non la vivano allo stesso modo di altre categorie di giocatori (e Federer è un robot).

Non voglio che giocatori che arrivano spesso in finale rendano i risultati inaccurati, ma non intendo nemmeno escludere categoricamente determinati giocatori per una percezione personale sulla loro resistenza a strascichi emotivi dopo una finale.

Due limitazioni

Vista di fatto però l’assidua presenza nell’ultima giornata, devo trovare un modo per contenere l’effetto distorsivo che tutte le finali dei giocatori di vertice avrebbero nel campione di dati. Ho quindi introdotto due tipi di limitazioni:

  • nessun giocatore ha partite che seguono una finale per più delle prime 15 finali. Chi ha giocato più di 15 finali è a un livello talmente alto, e possiede così tanta esperienza nel trovarsi in fondo al torneo, che è molto improbabile possa mostrare segni di strascico emotivo superata quella soglia
  • nessun giocatore ha più di 5 partite che seguono una finale dopo che è entrato tra i primi 10, in modo da arginare proprio chi ha avuto una crescita improvvisa e, anche dopo la precedente limitazione, ritrovarsi comunque 15 finali interamente conteggiate. Questa limitazione era di fatto solo di un’impostazione di controllo, che non è intervenuta poi frequentemente.

Come conseguenza di queste regole (e tornando indietro solo fino al 2007), ci sono molti giocatori di massimo calibro a non essere rappresentati. Ad esempio Federer, il quale all’inizio del 2007, aveva già giocato 15 partite che seguono una finale e aveva giocato almeno 5 finali dopo essere entrato nei primi 10. Non ci sono dunque partite di Federer nel campione. E lo stesso vale per alcuni giocatori di altro profilo che si sono ritirati, come Lleyton Hewitt, che ha giocato qualche finale dopo il 2006, nessuna delle quali è inclusa perché sono intervenute le limitazioni prima del periodo di riferimento dello studio.

Toh, che scoperta!

In generale, i finalisti vincono le partite che seguono una finale. Prima di entrare nel dettaglio, analizziamo alcune delle percentuali aggregate. La tabella dell’immagine 1 fornisce molte informazioni che necessitano di spiegazione.

Le prime tre colonne riportano il rendimento alla settimana successiva dei giocatori nelle partite che seguono una finale. La prima colonna ignora l’eventualità di un bye al primo turno del torneo seguente. La seconda colonna identifica solo i giocatori che dopo la finale hanno giocato il primo turno del torneo seguente. La terza colonna identifica solo i giocatori che hanno ricevuto un bye nel torneo seguente, per i quali quindi la prima partita dopo la finale è stata il secondo turno (se vi sta girando la testa, è normale).

Guardiamo ora le righe. La prima riga rappresenta tutti i giocatori finalisti della settimana precedente, a prescindere dal risultato che hanno conseguito. La seconda e terza riga identificano rispettivamente i vincitori della finale e i giocatori che invece l’hanno persa.

Ad esempio, i vincitori della finale vincono il 70.5% delle volte in cui giocano al primo turno nella settimana successiva, e l’83.5% delle volte se usufruiscono di un bye e non giocano fino al secondo turno (a prescindere dal turno, i vincitori della finale vincono la partita che segue il 72.5% delle volte). Ho inoltre aggiunto altre tre colonne (“Seconda Partita”) per il cui significato rimando alla nota in corsivo.

IMMAGINE 1 – Percentuali aggregate del rendimento dei giocatori nella prima e seconda partita che seguono la finale

Nota

Il secondo gruppo di colonne rappresenta il rendimento dei finalisti della settimana precedente nella seconda partita del torneo che segue, avendo vinto la prima partita. Pur non rilevando ai fini dell’articolo, visto che era disponibile ho ritenuto inserire quest’informazione. Colonne e righe si leggono nello stesso modo della “Prima Partita”, solo che in questo caso sono per una partita dopo.

Le partite che seguono una finale giocate al primo turno

Alla ricerca di un effetto da strascico emozionale, mi concentrerò sul primo turno (la colonna colorata), perché i giocatori con un bye hanno più tempo per superare un eventuale abbandono di adrenalina. Sono rimasto a questo punto con poco meno di 500 partite-giocatore, di cui 266 sul cemento, 183 sulla terra battuta e 48 sull’erba (motivo per cui i risultati su questa superficie potrebbero risentire significativamente delle dimensioni ridotte).

Pensiamo a cosa ci sta dicendo la colonna colorata ma, ancora più importante, a cosa non ci sta comunicando. Ci dice in primo luogo che i finalisti della settimana precedente vincono solitamente la partita di primo turno nel torneo che segue. Non è proprio così sorprendente, perché, in media, chi raggiunge una finale è certamente all’altezza di vincere primi turni con continuità.

Ci dice inoltre che i vincitori della finale hanno molta più probabilità di vincere le partite che seguono una finale, rispetto ai giocatori che l’hanno persa. Anche qui, non ci sono sorprese, visto che normalmente sono i giocatori migliori a vincere, cioè gli stessi che hanno più probabilità di vincere al primo turno la settimana successiva.

Quello che non ci dice la seconda colonna è se quei numeri sono di qualche indicazione o, detto in altro modo, se evidenziano effettivamente uno strascico dalla finale della settimana precedente. Che il vincitore della settimana precedente vinca anche il 70% delle partite che seguono una finale è per lui confortante, ma se ci si attende che ne vinca l’80%, allora il 70% non è più un gran risultato, non è così? All’opposto, se un giocatore vince una finale e subito dopo va a giocare agli US Open perdendo al primo turno da Djokovic, non ha perso quella partita perché aveva giocato nella finale della settimana precedente.

Risultati attesi nelle partite di primo turno che seguono una finale

Quello che dobbiamo fare quindi è conoscere il risultato atteso delle partite che seguono la finale e, in aggregato, confrontarlo con gli esiti effettivi di quelle stesse partite. A questo proposito ho usato valutazioni Elo specifiche per superficie e relative al momento in cui si sono giocate le partite. Non è una versione corretta di Elo – a differenza delle valutazioni Elo che uso per i pronostici – in parte perché non ho idea se quegli aggiustamenti abbiano senso per periodi più indietro nel tempo e in parte perché richiederebbero molti più calcoli. Con o senza intervento, Elo comunque non è perfetto nelle previsioni, ma è estremamente valido, specialmente sui grandi numeri.

Tutti i finalisti

L’immagine 2 mostra la percentuale di vittoria attesa nelle partite che seguono una finale su diverse superfici per tutti i finalisti della settimana precedente, a prescindere dal risultato.

IMMAGINE 2 – Percentuale di vittoria attesa dei finalisti nelle partite che seguono la finale

Si nota un divario importante tra la percentuale di vittoria attesa Elo e quella effettiva. Ritornando alla prima tabella, una percentuale di vittoria del 62.2% nelle partite di primo turno dopo una finale non sembra più così valida. Elo si attende che quel numero sia intorno al 67.5%.

Vincitori della finale

Proviamo a scomporre ulteriormente iniziando con i numeri dei vincitori della settimana precedente.

IMMAGINE 3 – Percentuale di vittoria attesa dei vincitori nelle partite che seguono la finale

Anche questa tabella è interessante. C’è qualche differenza marginale nei risultati attesi per i vincitori, ma nulla che non derivi da un normale margine di errore. I vincitori della finale vincono le partite di primo turno della settimana successiva con quasi la stessa frequenza che ci si aspetta da loro.

Sconfitti in finale

Di fronte a un divario importante tra risultati attesi ed effettivi includendo tutti i finalisti, e praticamente nessuna differenza se si considerano solo i vincitori della finale, si capisce da dove arrivi quel divario, come mostra l’immagine 4.

IMMAGINE 4 – Percentuale di vittoria attesa degli sconfitti nelle partite che seguono la finale

A prescindere dalla superficie, i giocatori che hanno perso la finale ottengono risultati di molto inferiori alle attese nella partita che segue la finale. L’effetto è più pronunciato sulla terra, forse dovuto alla presenza di più finalisti a sorpresa che giocano al di sopra del livello abituale, a cui ritornano la settimana successiva. C’è un divario enorme sull’erba, ma si tratta solo di circa 25 partite, e mi aspetto che, con dati migliori a disposizione, si avvicini a quanto accade sul cemento.

Confesso di essere un po’ stupito. Ed è strano, se penso a come, prima di quest’analisi, percepissi che i finalisti avessero minori possibilità. La ragione sta nel fatto che durante la raccolta e sistemazione dei dati, di cui molti a mano, non riuscivo a cogliere l’effetto. Mi aspettavo che i dati dimostrassero ancora una volta l’infondatezza della mia sensazione, mentre invece sembra che io sbagli solo a metà.

Esiste quindi con certezza un calo emotivo per il giocatore che ha perso la finale?

Sarebbe una conclusione affrettata. Non ho isolato un effetto di strascico emotivo indipendente da altre variabili, come la fatica accumulata nelle partite della settimana precedente. Non sarebbe sconvolgente sapere che il giocatore sconfitto in finale ha perso perché era già affaticato, o quantomeno lo era più del vincitore, anche perché è probabile che abbia giocato più partite per arrivarci. E non ho nemmeno tenuto conto del livello competitivo espresso in finale. Chi ha perso la finale rende ancora peggio la settimana successiva se la sconfitta è stata netta? O rende meglio se ha portato il vincitore a un passo dalla sconfitta? Lo studio non risponde a queste domande. A essere onesti, non ci ho pensato se non dopo aver elaborato i dati e iniziato a scrivere. In ogni caso, il fatto è che servirebbe una quantità decisamente maggiore di dati punto per punto per esprimere conclusioni progressivamente più rifinite.

Sarebbe curioso verificare anche quelle circostanze in cui la finale e la partita che segue la finale si sono giocate su una superficie diversa. Solo non si troverebbero mai dati a sufficienza in uno stesso periodo da poter dedurre considerazioni definitive su quel punteggio.

Sento di poter dire con un certo grado di sicurezza che la sconfitta in una finale genera una forma di effetto negativo sulla partita di primo turno della settimana successiva, per molteplici cause. E che, di contro, non c’è un apparente crollo delle endorfine accumulate nella vittoria in finale della settimana precedente.

Dammi il cinque, dannazione!

Una teoria scientifica sostiene che sforzarsi a sorridere anche nei momenti in cui non si è felici o di tutt’altra disposizione d’animo è di beneficio immediato e di aiuto per recuperare il buonumore. In sostanza, si inganna il cervello azionando il movimento del muscolo associato al senso di felicità.

Forse i giocatori dovrebbero dare il cinque al proprio angolo anche dopo una sconfitta in finale. Potrebbe essere importante tanto quanto recuperare dalla fatica della partita con il bagno nella vasca di ghiaccio.

Is There an Emotional Hangover After a Tennis Final (ATP)?

Dominic Thiem nei game al servizio sotto pressione

di Jeff Sackmann // TennisAbstract

Pubblicato il 5 settembre 2018 – Traduzione di Edoardo Salvati

Il quarto di finale tra Rafael Nadal e Dominic Thiem è stata per il momento la partita più scintillante degli US Open 2018. Dopo quasi cinque ore, i due giocatori erano ancora 5-5 nel tiebreak del set decisivo. Alla fine Nadal si è portato avanti con il più ridotto dei margini, vincendo con l’improbabile punteggio di 0-6 6-4 7-5 6-7(4) 7-6(5).

Entrambi hanno avuto molte occasioni per chiudere la partita ma, mentre Nadal si prepara alla semifinale contro Juan Martin Del Potro, Thiem avrà tutto il tempo di rimuginare sulle opportunità mancate. Nel secondo set, non è riuscito a tenere il servizio negli ultimi due game, tra cui il game conclusivo sul 4-5.

Nel terzo set, è andato avanti strappando il servizio a Nadal nel settimo game, ma non ha poi consolidato il vantaggio subendo il break sul 5-4 al momento di servire per il set. Due game dopo, non è riuscito a tenere il servizio per rimanere nel set sul 5-6, pur portando Nadal a quattro parità prima di cedere.

Naturalmente, tre opportunità mancate non fanno una partita, ma rimangono ben impresse. Complessivamente, Thiem ha servito molto bene, concedendo a Nadal solo un break per set. Sono cioè 21 servizi tenuti su 26, o l’81%, un risultato notevole rispetto alla media del 66% ottenuto dagli avversari di Nadal sul cemento nel 2018, o il ridicolo 52% che Nadal ha concesso in totale.

Thiem non ha servito male, anzi, ma è venuto meno nei momenti sbagliati. Thiem ha strappato il servizio a Nadal più spesso del contrario – 6 volte contro 5 – ma con tre dei break di Thiem concentrati nel primo set per il 6-0 finale (nota personale: !??!?!?!?), i sei break subiti da Nadal hanno avuto conseguenze meno pesanti dei cinque di Thiem.

Giornata no o è proprio lui?

Questo succede regolarmente a Thiem, o è qualcosa che è stato portato a fare, forse spinto al limite da uno dei più grandi giocatori alla risposta di sempre? Troppo frequentemente gli spettatori – insieme a molti di coloro che sono pagati per parlare o scrivere di tennis – rimangono colpiti da quest’ultimo aspetto ma si convincono che sia una mancanza di Thiem. È così effettivamente? Thiem ha l’abitudine di servire con solidità nei game di minore importanza per poi cedere quando sale la pressione del punteggio?

Fosse in questo modo, rappresenterebbe un’eccezione. Qualche anno fa ho analizzato le opportunità di “servire per il set”, trovando che sul circuito maggiore i giocatori servono quasi esattamente con la stessa efficacia di fronte alla possibilità di vincere il set che negli altri game. La differenza è di un semplice 0.7%, cioè la “difficoltà” di servire per chiudere il set si traduce in un break aggiuntivo ogni 143 occorrenze. E l’effetto è rimasto invariato restringendo il dettaglio alle circostanze in cui un giocatore è avanti di un solo break, come quando Thiem ha perso il servizio sul 5-4 nel terzo set.

Proviamo a rifare l’analisi prestando specifica attenzione a Thiem. Il mio database punto per punto relativo alla maggior parte delle partite ATP tra la fine del 2011 e qualche settimana fa contiene ora 400.000 game di servizio, tra cui 30.000 game di servizio per il set e con due terzi di questi in situazione di punteggio avanti di un break. In più dell’1% di questi Thiem era al servizio, quindi almeno il campione di dati, a differenza del rendimento in campo, usufruisce del suo fitto calendario. In altre parole, con l’abbondanza di dati a disposizione, se esistesse un effetto dovremmo essere in grado di trovarlo.

Servire per rimanere nel set

Oltre al servire per il set, tra le opportunità mancate da Thiem c’è anche il rimanere nel set, quindi ho allargato il perimetro a diverse situazioni di pressione. Per ciascuna, ho calcolato la frequenza con cui un giocatore tiene il servizio rispetto alla frequenza con cui ha tenuto il servizio in quelle partite (un giocatore con molte opportunità di servire per rimanere nella partita probabilmente finisce per perdere la partita, con una percentuale di servizi tenuti più bassa della media. Questo metodo dovrebbe ovviare alla problematica).

Il valore di 1.0 dell’indice significa che la frequenza di servizi tenuti sotto pressione è più alta del solito, mentre un valore inferiore a 1.0 rispecchia una frequenza più bassa, la diminuzione che in molti si aspettano di vedere all’aumentare dell’importanza del punteggio.

La tabella elenca gli indici in diverse circostanze, tra cui servire per il set (con aggiunta di una sottocategoria con un solo break di vantaggio), servire per rimanere nel set (anche in questo caso con aggiunta di una sottocategoria con un solo break di svantaggio), punteggio in pari verso la fine del set come sul 4-4 o 5-5 e, in tema di confronti, situazioni di pressione ridotta – definite con “Tutte le Altre” – in cui si trova tutto ciò che non ricade nelle precedenti categorie (e si, comprende anche il famoso settimo game, che ho già detto in passato non essere così rilevante, non importa cosa ne abbia pensato Bill Tilden al riguardo).

Situazioni             Esempi      % Srv tenuti / Media  
Per il set             5-4; 5-2    0.994  
- Per il set 1 brk     5-3; 6-5    0.989    
Per rimanere           4-5; 1-5    0.999  
- Per rimanere 1 brk   5-6; 3-5    0.969    
Pari fine set          4-4; 5-5    0.953  
Tutte le altre         2-3; etc    1.003

L’effetto di “servire per il set” è praticamente identico a quanto trovato tre anni fa, vale a dire un calo di poco superiore allo 0.5%. L’anno scorso, l’impatto di servire per il set avanti di un solo break era leggermente più grande, ma comunque relativo. I giocatori fanno più fatica nel momento in cui sono al servizio per rimanere nel set e indietro di un solo break – perdono il servizio il 3.1% più spesso del solito – e quando servono sul 4-4 o 5-5, perdendo il servizio il 5% più frequentemente di quanto ci si attenda.

Sono questi gli effetti più marcati che ho riscontrato, ma non perdiamo di vista l’ordine di grandezza: anche una differenza del 5% significa una variazione nell’esito di un game di servizio ogni venti. Pur avendo la sua importanza, è comunque estremamente complicato da osservare a occhio nudo.

L’un percento

Come si comporta Thiem? La tabella riporta i suoi valori per lo stesso gruppo di indici, con colonne relative ai numeri in carriera (anche se vincolati all’estensione del mio database, in cui ci sono poche partite prima del 2012) e alle statistiche delle singole stagioni 2016, 2017, e 2018.

Situazioni            Carriera  2016   2017   2018  
Per il set            0.996     1.049  1.011  0.966  
- Per il set 1 brk    0.984     1.078  1.008  0.887  
Per rimanere          1.030     1.160  1.027  0.940  
- Per rimanere 1 brk  0.984     1.148  0.957  0.964  
Pari fine set         0.984     0.976  0.991  0.889  
Tutte le altre        1.004     0.994  1.009  1.030

I numeri in carriera di Thiem non rivelano molto, solo di un giocatore che è un po’ meno efficace nelle situazioni ad alta leva, ma su cui forse la pressione incide in misura leggermente inferiore rispetto ai suoi colleghi. La preoccupazione è nei numeri della stagione 2018, che sono in deciso calo in tutte le categorie. Ognuna di esse rappresenta un campione relativamente ristretto – ad esempio, ci sono solo 42 game in cui Thiem serve per il set avanti di un break – ma, complessivamente, l’insieme dei valori al di sotto di 1.0 non indica una direzione incoraggiante.

Non avremmo mai potuto prevedere che, nel quarto di finale contro Nadal, Thiem avrebbe servito così bene durante la partita tranne che nei momenti di maggiore importanza, ma c’erano sicuramente segnali, seppur nascosti, nel rendimento del 2018.

Un rompicapo

Voglio ora mostrarvi lo stesso insieme di dati, ma per un altro giocatore. Per certi versi, è un caso opposto a quello di Thiem: molti più break in situazioni di pressione durante la carriera del giocatore, ma una tendenza contraria negli ultimi anni, verso più servizi tenuti.

Situazioni            Carriera  2016   2017   2018  
Per il set            0.929     0.931  1.200  1.077  
- Per il set 1 brk    0.910     0.895  1.333  1.000  
Per rimanere          1.026     1.077  1.083  1.061  
- Per rimanere 1 brk  0.929     1.100  1.167  1.044  
Pari fine set         0.905     1.050  1.000  1.048  
Tutte le altre        1.011     1.013  1.024  1.013

Qualche idea su chi possa essere? È una domanda un po’ a trabocchetto, perché sono i dati al servizio di tutti gli avversari di Nadal sul circuito maggiore. Dal 2012 al 2015, Nadal ha assolutamente annientato gli avversari al servizio da circa il punteggio di 4-4 (almeno rispetto alla sua media, non era così efficace sul proprio servizio nelle fasi finali dei set).

Pochissimi giocatori o stagioni generano un effetto maggiore del 5% in una o nell’altra direzione, ma gli avversari di Nadal hanno visto la loro percentuale di servizi tenuti diminuire in alcune stagioni più del doppio di quel valore. Nell’ultimo anno o due è stato il rendimento di Nadal a calare nei game in cui era alla risposta nelle fasi conclusive del set.

Conclusioni

Vale la pena ripeterlo, non si dovrebbe interpretare un singolo anno di questi dati con zelo eccessivo: la dimensione del campione è limitata, specialmente per i game alla risposta di un giocatore di vertice, perché non sono in molti a trovarsi a servire per il set contro di lui. Ma se avessimo guardato al record di Nadal alla risposta in situazioni di pressione insieme alle recenti prestazioni di Thiem al servizio, ci saremmo trovati di fronte a uno scenario più complesso, con il quale sarebbe stato meno probabile prevedere alcuni dei momenti cruciali della maratona tra i due giocatori.

In una partita qualsiasi, non ci sono semplicemente abbastanza game chiave per consentirci di pronosticarne l’esito anche con il minimo successo, soprattutto quando un nastro, una distrazione inopportuna o una chiamata sbagliata potrebbero far girare il risultato. Ciò non vuol dire che non dovremmo provare a capire quello che accade. Sfortunato, impreciso nei momenti chiave o qualsiasi altra cosa, Thiem avrebbe potuto ribaltare la partita tenendo uno di quei tre game al servizio. Difficilmente la posta in palio sarebbe potuta essere più grande.

Dominic Thiem In Pressure Service Games

Il metodo dell’equivalenza tra circuiti

di Jeff Sackmann // TennisAbstract

Pubblicato il 9 aprile 2018 – Traduzione di Edoardo Salvati

Qual è il divario tra il circuito maggiore dell’ATP – il massimo livello professionistico del tennis maschile – e il circuito Challenger, che invece rappresenta i ranghi inferiori?

Ci sono giocatori che accumulano vittorie in tornei di quest’ultimo ma fanno fatica a trasformare quel successo in partite vinte sul circuito maggiore, mentre altri non riescono ad adattarsi facilmente al ritmo serrato imposto settimanalmente dai Challenger per poi invece risplendere su palcoscenici più importanti quando ne hanno opportunità.

Una misurazione della differenza di livello

Prendiamo in esame un metodo che misuri la differenza tra il livello di bravura dei due circuiti. Una volta in grado di traslare in modo equivalente statistiche da un livello all’altro rendendoli comparabili, possiamo identificare quei giocatori con un rendimento molto superiore o molto inferiore alle attese quando hanno la possibilità di confrontarsi con i migliori in assoluto.

L’algoritmo che utilizzerò è praticamente identico a quello a cui gli analisti di baseball si sono rivolti per decenni nel determinare l’equivalenza tra circuiti.

Ad esempio, si può calcolare che una media battuta di .300 nella Tripla-A (la più forte tra le leghe minori) corrisponda a una media battuta di .280 nella MLB, il massimo livello professionistico del baseball maschile, per cui se un giocatore batte con .300 nella Tripla-A, ci si aspetta che batta con .280 nella MLB.

Cosa attendersi nello spostamento da un livello all’altro

Per tornare al tennis, può essere che una frequenza del 10% di ace nei Challenger equivalga a una dell’8% nel circuito maggiore. Non tutti i giocatori mostreranno un calo di rendimento così puntuale – anzi, per alcuni sembrerà esserci pure un miglioramento – ma, in media, l’equivalenza tra circuiti indica cosa attendersi quando un giocatore si sposta da un livello all’altro.

Questo è l’algoritmo per le equivalenze tra circuiti applicato al tennis maschile:

  1. Si sceglie una statistica su cui concentrare l’attenzione. Io userò i punti vinti totali (Total Points Won o TPW);
  2. Si cerca di neutralizzare la statistica come meglio possibile. Nel baseball, ciò significa controllare per le differenze che ci sono tra i vari terreni di gioco; nel tennis, significa controllare per la competizione data dagli avversari. Ai fini di quest’articolo, ho corretto per la bravura degli avversari di ciascun giocatore attraverso un metodo che ho descritto lo scorso anno. Per la maggior parte dei giocatori i numeri rimangono sostanzialmente uguali dopo il correttivo, ma un tabellone particolarmente facile o difficile comporta una variazione più ampia. Ad esempio, Denis Shapovalov ha ottenuto un TPW del 49.8% sul circuito maggiore nel 2017 ma, vista la forza degli avversari che si è trovato contro, il correttivo lo fa salire a 52.1%, che gli vale la 18esima posizione tra i giocatori che regolarmente fanno parte del circuito;
  3. Si identificano i giocatori attivi su entrambi i circuiti e si trovano le loro statistiche corrette relative a ciascun livello. Nel 2017, Shapovalov ha giocato 18 partite sul circuito maggiore e 30 sul circuito Challenger, con valori TPW aggiustati rispettivamente di 52.1% e 54.4%;
  4. Per ciascun giocatore, si calcola il rapporto tra i due valori. Per Shapovalov nel 2017 è stato di 1.044 (54.4 / 52.1);
  5. Per ogni giocatore si ottiene infine una media ponderata del rapporto in questione. La ponderazione è data dal minimo numero di partite giocate tra i due circuiti, diciotto nel caso di Shapovalov. In questo modo possono essere inclusi anche giocatori come Gleb Sakharov (1 partita sul circuito maggiore, 37 partite sul circuito Challenger), con effetti marginali sul risultato finale.

La tabella elenca i risultati per le ultime sei stagioni complete. Ciascun indice è la relazione tra il TPW a livello di circuito Challenger e il TPW a livello di circuito maggiore.

Anno   Indice  
2017   1.086  
2016   1.086  
2015   1.098  
2014   1.103  
2013   1.100  
2012   1.100

La media di questi fattori di equivalenza annuali corrisponde circa alla differenza tra un TPW del 52.5% a livello di Challenger e un 48.0% a livello di circuito maggiore.

Il cambiamento tra il 2012-15 e il 2016-17 può essere dovuto agli infortuni che hanno messo fuori uso i più forti. Con meno giocatori al vertice in campo, la differenza tra i due circuiti si riduce.

Giocatori che si muovono in controtendenza

Ora che siamo a conoscenza della differenza tra livelli, possiamo cercare quei giocatori che si muovono in controtendenza.

La tabella elenca i 20 giocatori con gli indici più bassi tra i 100 con il maggior numero di partite “accoppiate”, vale a dire con più partite su entrambi i circuiti nello stesso anno.

Indici inferiori significano una differenza di rendimento più ridotta tra i due livelli: quindi, o questi giocatori stanno ottenendo prestazioni superiori nel circuito maggiore, o prestazioni inferiori nel circuito Challenger.

Giocatore   P ATP  P CH  P Min  Indice  
Ebden       62     140   39     0.982  
Donaldson   68     78    37     1.030  
Sock        81     45    38     1.039  
Duckworth   53     156   53     1.042  
Rublev      56     79    42     1.047  
Pospisil    96     76    60     1.047  
De Bakker   48     87    44     1.048  
Groth       84     133   58     1.049  
Berrer      59     107   56     1.050  
Bemelmans   41     178   41     1.052  
Brown       120    173   111    1.055  
Paire       295    53    53     1.059  
Gojowczyk   46     132   44     1.059  
Russell     58     78    58     1.061  
Copil       58     180   58     1.063  
Fritz       59     44    41     1.065  
Thompson    38     88    38     1.066  
Marchenko   56     116   37     1.066  
Ito         65     179   65     1.066  
Harrison    124    84    59     1.068

Le colonne centrali mostrano il numero totale di partite sul circuito maggiore, sul circuito Challenger e di partite “accoppiate” tra il 2012 e il 2017 (“P Min”, che indica quanti dati ci fossero a disposizione per i calcoli relativi a ciascun giocatore).

Pochi elementi in comune

A parte alcuni nordamericani che dominano al servizio e che si trovano in cima all’elenco, non emergono evidenti caratteristiche che accomunino questi giocatori.

Ci sono giovanissimi, veterani, più dominatori al servizio, ma niente di così ovvio (Shapovalov non ha giocato sufficienti partite “accoppiate” per rientrare nel computo, ma il suo indice complessivo è 1.035, che lo posizionerebbe al terzo posto dell’elenco).

La tabella che segue riporta invece l’elenco opposto, cioè il quintile di 20 giocatori con prestazioni superiori nel circuito Challenger o prestazioni inferiori nel circuito maggiore.

Giocatore    P ATP  P CH  P Min  Indice  
Mayer        152    45    45     1.180  
Youzhny      91     38    38     1.169  
Bedene       144    121   80     1.160  
Volandri     62     101   62     1.158  
Haase        194    71    71     1.157  
Kamke        102    144   73     1.155  
Mannarino    234    115   86     1.155  
Krajinovic   36     167   36     1.148  
Ramos        111    67    62     1.144  
Mathieu      147    96    82     1.141  
De Schepper  77     196   77     1.140  
Bagnis       45     197   45     1.136  
Cuevas       127    52    43     1.136  
Dodig        76     48    41     1.135  
Giraldo      146    70    56     1.135  
Lorenzi      204    191   124    1.135  
Bellucci     162    44    44     1.134  
Montanes     113    109   70     1.130  
Dutra Silva  57     210   57     1.130  
Lacko        122    181  108     1.129

Troviamo, rispetto all’elenco precedente, più specialisti della terra battuta e, nelle prime posizioni, veterani che hanno ottimamente figurato nel circuito Challenger pur facendo fatica a mantenere una presenza nel circuito principale.

Ho dovuto eliminare un giocatore che altrimenti farebbe parte dell’elenco, cioè Gilles Muller che ha frantumato l’algoritmo con una stagione Challenger nel 2014 di 45 vittorie e 9 sconfitte.

Quando l’ho escluso dai calcoli per il 2014, i numeri totali sono cambiati di poco, ma Muller non è più in elenco. Quale sia il suo indice con precisione non ha troppa importanza, perché posso assicurare che il suo rendimento a livello di circuito maggiore non è stato alla pari di quella stagione vincente nei tornei Challenger.

Variazione ridotta tra giocatori

La parte bassa di entrambi gli elenchi indica che non esiste molta variazione tra i giocatori. Il 60% centrale dei giocatori possiede un indice con valore tra l’1.07 e l’1.13, mentre le medie annuali si aggirano intorno all’1.09 e l’1.10.

Alcuni dei giocatori analizzati hanno meno di 50 partite “accoppiate” nelle sei stagioni considerate, quindi la differenza di un paio di centesimi è troppo ridotta per trarre conclusioni definitive.

Oltre a suggerire quale scenario si prospetti per i giocatori quando salgono dal circuito Challenger a quello maggiore, è un algoritmo il cui ragionamento è applicabile ad altre coppie di livelli, come ad esempio i Future ITF e i Challenger, o i Future ITF femminili e il circuito maggiore femminile. Può anche essere usato per mettere a confronto livelli ancora più ravvicinati, come i tornei ITF $10.000 e gli ITF $15.000, o i 250 e i 500.

L’equivalenza tra circuiti è un metodo basilare nell’analisi statistica di altri sport, ma possiede il suo posto anche nel tennis.

Translating ATP Statistics Across Main Tour and Challenger Levels

Il movimento analitico del tennis celebra il linguaggio R a Cape Town

di Stephanie Kovalchik // OnTheT

Pubblicato il 18 marzo 2018 – Traduzione di Edoardo Salvati

Mentre all’Indian Wells Masters andava in scena l’atto conclusivo (con la finale vinta da Juan Martin Del Potro contro Roger Federer, n.d.t.), il movimento analitico del tennis si radunava dall’altra parte del mondo, a Cape Town in Sudafrica, per la conferenza satRday.

Le occasioni per affinare gli strumenti del mestiere di un analista di dati nel tennis sono piuttosto rare. È stata quindi una fortuna poter partecipare alla 2018 satRday Cape Town Conference, organizzata da Andrew Collier (@DataWookie) e dai suoi colleghi.

Di ritorno a Cape Town, la 2018 satRday ha dedicato un intero giorno a sviluppatori e appassionati di R per la condivisione di modalità ed eccitanti novità in merito all’utilizzo e al miglioramento di questo linguaggio di programmazione.

Venti dei ventitré oratori sono al momento attivi in Sudafrica, ed è stato molto interessante conoscere dettagli approfonditi del loro apporto a R.

Il linguaggio R per l’analisi sportiva

Nel mio intervento ho illustrato l’utilizzo di R per elaborare statistiche di tennis in tempo reale con il Game Insight Group della Federazione australiana. In uno dei seminari che hanno preceduto la conferenza, ho potuto mostrare ai partecipanti alcuni esempi concreti di analisi statistica nello sport funzionali a raccogliere, indagare e modellare dati in modo più efficace attraverso R. Materiale e presentazioni per il seminario sono disponibili qui.

Sebbene la conferenza fosse aperta a qualsiasi argomento relativo a R, è stato degno di nota il numero di presentazioni con estrema rilevanza per l’analisi sportiva.

Ad esempio, Neil Watson (@rugbystatsguy), docente della University of Cape Town è intervenuto sull’utilizzo di R per analizzare e visualizzare il vantaggio psicologico nelle partite del Rugby a 15 (o Rugby Union).

Sean Soutar, studente della medesima università, ha illustrato l’uso di Docker e RSelenium per raggranellare dati dinamici da internet, due applicativi di cui spesso mi servo per raccogliere dati sul tennis.

Robert Bennetto ha esaltato i vantaggi del pacchetto sp per gestire dati di posizionamento, che potrebbe diventare una risorsa particolarmente comoda per creare indici di posizionamento nello sport.

La divertente presentazione di Peter Kamerman riguardo a purrr mi ha convinto della bontà di pacchetti map e pmap nei miei tentativi alla programmazione funzionale in R.

Ho apprezzato molto anche l’intervento a chiusura dei lavori di David Lubinsky, così chiaro sui meriti di profvis – sviluppato da Winston Chang per profilare il codice in R – che senza dubbio sarà di grande aiuto nell’individuare colli di bottiglia nella mia futura scrittura di codice.

Il lavoro delle programmatrici R per la comunità

Oltre a queste preziose indicazioni per l’analisi statistica nello sport, sono rimasta impressionata dall’incredibile lavoro che le programmatrici in R stanno portando avanti a favore della comunità R.

Due di loro meritano speciale menzione. Da un lato, Wiebke Toussaint, che ha condiviso – con illimitato entusiasmo – l’utilizzo di ckanR per rendere disponibili a chiunque i dati da ricerche nel settore energetico attraverso un portale a libero accesso.

Dall’altro, Maëlle Salmon (@ma_salmon), che ha dato il via alla conferenza con una presentazione così coinvolgente da rendere l’atmosfera dell’intero programma di massimo entusiasmo e condivisione.

Salmon è una Research Software Engineer per rOpenSci, il cui obiettivo e quello di rendere lo sviluppo di pacchetti in R un’esperienza più collaborativa, veloce e divertente. Nel suo intervento, ha catturato l’attenzione di tutti mostrando come rOpenSci stia facilitando l’attività degli sviluppatori nel migliorare i programmi.

Certamente un intervento da circoletto rosso!

Cape Town celebrates R and tennis data science at satRday?

Il punto sulla ricerca nella statistica sportiva dalla MIT Sloan 2018

di Stephanie Kovalchik // OnTheT

Pubblicato il 27 febbraio 2018 – Traduzione di Edoardo Salvati

Verranno presentate alcune delle ricerche più all’avanguardia nell’analisi statistica sportiva questa settimana alla MIT Sloan Sports Analytics Conference (SSAC). Cosa suggeriscono gli argomenti all’ordine del giorno riguardo allo stato dell’arte della ricerca quantitativa nello sport?

Arrivata alla dodicesima edizione e ospitata a Boston, la SSAC sembra poter crescere anno dopo anno e attrarre nomi sempre più grandi nello sport. Insieme a rappresentanti del mondo della pallacanestro come Sam Hinkie e John Hollinger, anche l’ex presidente degli Stati Uniti Barack Obama, come noto un grande appassionato di sport, è stato invitato a intervenire.   

Ci si chiede se, guardando la lista dei relatori, uno statistico dello sport possa davvero sperare di apprendere alcunché partecipando alla SSAC o se si tratti solo di un’occasione mondana per i nomi che contano nel settore. Nella mia esperienza, è un po’ entrambe le cose. Per chi è patito di statistiche, concentrare l’attenzione sulla parte del programma dedicato alla ricerca offre gli spunti più rilevanti.

La fitta elaborazione di numeri e dati della ricerca sportiva rappresenta una parte ridotta del programma della SSAC: verranno presentati infatti solo 8 lavori e 12 poster.

Tuttavia, grazie a un processo estremamente selettivo, si ha garanzia che il contenuto sia di altissima qualità e indicativo di cosa si stiano occupando le menti più brillanti nella ricerca sportiva (va detto, con una forte inclinazione per il mondo americano). 

Cosa mostrano quindi le ricerche presentate alla SSAC 2018 sull’analisi statistica sportiva?

Sport analizzati

Iniziamo con gli sport analizzati quest’anno dai lavori e dai poster. Con 2 lavori e 6 poster – il 50% dei poster – il basket è lo sport più trattato alla SSAC 2018. La maggior parte delle analisi sul basket si concentrano sulla NBA, con un progetto sulla NCAA (di Sailofsky, ‘Drafting Errors’), e un altro con dati ricavati da videocamere GoPro su competizioni amatoriali (di Bertasius et al., ‘Learning an Egocentric Basketball Ghosting Model’).

Per gli altri due sport, il football americano e il baseball, sono stati accettati 2 lavori ciascuno, a completamento di un triumvirato di sport di squadra americani tra i lavori finalisti della conferenza.

Al di fuori dagli sport americani più popolari, è il calcio (o Association Football) a essere il più rappresentato nelle ricerche, con un lavoro e 3 poster. Chiude la lista un progetto sugli eSports (di Maymin, ‘An Open-Sourced Optical Tracking and Advanced eSports Analytics Platform for League of Legends’), solamente il secondo, per quanto ne sappia, alla SSAC.

Il tennis e l’hockey su ghiaccio sono presenti con un poster a testa, anche se lo studio per la categoria hockey include una sottomissione anche per la categoria basket. Il lavoro sul tennis arriva dal gruppo a cui appartengo, il Game Insight Group (di Kovalchik e Reid, ‘Going Inside the Inner Game’).

Il mero conteggio potrebbe far pensare che sia il basket su cui il maggior numero di ricerche analitiche nello sport è incentrato. Considerando però la forte connotazione nordamericana dei ricercatori che hanno inviato i lavori e dei giudici che che li hanno esaminati, non necessariamente è un’immagine esaustiva delle tendenze più generali nell’analisi statistica sportiva nel mondo.

Temi trattati

In assenza di temi e parole chiave associate ai lavori presentati alla SSAC, la categorizzazione dell’argomento principale alla base di ogni ricerca si riduce a un’interpretazione soggettiva. Avendo letto tutti i lavori, credo che la ripartizione in tabella sia una rappresentazione ragionevole di ogni questione di fondo affrontata da ciascuno di essi. 

I temi che più si sono distinti tra i lavori presentati sono stati l’introduzione di nuovi indici di rendimento e la valutazione delle abilità e del talento degli atleti, ciascun tema con 2 lavori specifici. Un lavoro è stato dedicato all’identificazione degli stili di gioco e uno all’identificazione delle tendenze di gioco.

L’appellativo di inedito spetta a uno studio sulla previsione degli infortuni (di Ward et al., ‘Volume and Intensity are Important Training Related Factors in Injury’) e a uno sulla gestione quotidiana del portafoglio negli sport di fantasia [di Haugh e Singal, ‘How to Play Strategically in Fantasy Sports (and Win)’]‘.

Con un 50% di poster in più rispetto ai lavori, la diversità di argomento è maggiore in questo gruppo. Solo il tema della valutazione della strategia ha prevalso, grazie alle ricerche su calcio e basket di Bornn e co-autori.   

Ci sono stati 2 studi che hanno esaminato metodi per l’identificazione di tendenze di gioco, mentre altri 2 progetti tra i poster presentati hanno introdotto soluzioni per automatizzare il processo di analisi dei filmati o dei video con la prospettiva dell’atleta.

Con un solo poster ciascuno, alcuni dei temi più trattati in passato, come la valutazione delle scelte nel draft o l’introduzione di indici di prestazione, non hanno avuto lo stesso approfondimento. È curioso come nessuno studio per la SSAC 2018 abbia analizzato le problematiche relative alla programmazione dei calendari di gioco nello sport, nonostante l’argomento sia di estrema attualità.

Dati esaminati

La possibilità di esaminare alcuni dei dati più ambiti nello sport è spesso una caratteristica delle ricerche per la SSAC. Come categoria a sé stante, i dati derivanti da tracciatura (tracking data) sono stati i più utilizzati, comparendo, in una forma o nell’altra, in 12 dei 20 studi.

Il sistema con videocamere a copertura integrale del campo implementato da STATS SportsVU è quello che ha rilasciato più dati, presente in 4 degli studi. Pur rimanendo la tracciatura basata su videocamere il metodo più diffuso per raccogliere dati di posizione tra le ricerche della SSAC, è interessante vedere anche alternative come l’applicazione di sensori o la tracciatura ottica.

La maggior parte dei rimanenti lavori ha raccolto dati diretti, tra cui 2 delle ricerche sull’analisi manuale dei filmati e dei video con la prospettiva dell’atleta, con i campioni di dati strutturati in modo specifico per la ricerca in questione.

Tre studi (1 lavoro e 2 poster) hanno utilizzato dati punto-per-punto di pubblico dominio. Considerando che la maggior parte dei dati derivanti da tracciatura e di quelli raccolti direttamente sono privati, è incoraggiante sapere che esiste ancora la possibilità di produrre lavori inediti con dati disponibili a tutti che possano rientrare nella candidatura alla SSAC. 

Metodologie applicate

Dando uno sguardo alle metodologie applicate in ciascun lavoro e poster, emerge in modo forte e persistente un tema di fondo, quello delle reti neurali, che in una forma o nell’altra sono state utilizzate come strumento principale in 8 studi su 20. Due motivi rendono questa statistica meno sorprendente di quanto possa sembrare.

Da un lato il termine ‘rete neurale’, con il significato qui inteso, è piuttosto generico e ricomprende diversi modelli: convoluzionale, ricorrente, etc.

Inoltre, vista la popolarità delle reti neurali per la tracciatura di dati e dei video con prospettiva dell’atleta, la quantità di dati derivanti da tracciatura usati nei lavori per la SSAC rende più scontati gli esiti sull’analisi delle metodologie.    

Ero particolarmente interessata all’applicazione del raggruppamento per traiettoria (di Hobbs et al., ‘Quantifying the Value of Transitions’) e all’apprendimento per rinforzo (di Wang et al., ‘The Advantage of Doubling’), il primo perché sembra funzionale alla risoluzione di molte delle problematiche di tracciatura dati e il secondo perché si adatta in modo del tutto naturale alla valutazione delle strategie. Modelli formali bayesiani compaiono in 2 lavori, mentre altri 2 hanno stupito i giuridici della SSAC facendo uso della vecchia sana regressione lineare.

Riepilogo

Anche tenendo conto dell’enfasi sugli sporti americani, è interessante che un’iniziativa di fatto lanciata e portata avanti dal baseball si stia orientando sempre di più verso il basket (quantomeno per quello che si può vedere in termini di lavori alla SSAC).

Con una partecipazione così ridotta, molte delle tendenze in atto sono alimentate da un ristretto gruppo di ricercatori, guidati dai Bornns, Luceys e Goldsberrys del mondo analitico.

C’è chiaramente molto più da aggiungere alla storia dell’evoluzione dell’analisi sportiva di quanto una conferenza possa dire, ma è comunque un’occasione rivelatrice delle dinamiche in atto. 

Si se desidera approfondire uno qualsiasi dei lavori o poster che hanno partecipato alla SSAC 2018, sono liberamente scaricabili qui.

Research Highlights from 2018 MIT Sloan Analytics Conference

Il gioco alla risposta di Schwartzman è ancora meglio di quanto pensassi

di Jeff Sackmann // TennisAbstract

Pubblicato il 26 aprile 2017 – Traduzione di Edoardo Salvati

Diego Schwartzman è uno dei giocatori più inusuali del circuito maschile. Con un’altezza inferiore pure a quella di David Ferrer, non avrà mai un’arma vincente nel servizio, caratteristica che – per essere competitivo – lo costringe a dover neutralizzare la battuta dei suoi avversari e vincere gli scambi da fondo.

Arrivato al numero 34 della classifica di questa settimana (raggiungendo da lunedì 26 febbraio 2018 il numero 18, massimo in carriera dopo la vittoria a Rio De Janeiro, torneo in cui la media percentuale dei punti vinti alla risposta nelle cinque partite giocate è stata del 52.28%, n.d.t.) e al numero 35 delle valutazioni Elo, ha dimostrato più volte di poter applicare questa strategia contro giocatori molto forti.

Grazie allo ATP stats leaderboard su TennisAbstract, è possibile effettuare una veloce comparazione del suo gioco alla risposta con quello dei giocatori di vertice.

Risultati da leggere con cautela

Nelle ultime 52 settimane del circuito maggiore (fino al Monte Carlo Masters 2017), è al terzo posto con un 42.3% di punti vinti alla risposta, dietro solamente a Andy Murray e Novak Djokovic.

Riesce a essere particolarmente efficace contro le seconde di servizio, vincendo il 56.5% dei punti sulla seconda, meglio di qualsiasi altro giocatore. Ha ottenuto il break nel 31.8% dei game alla risposta, di nuovo al terzo posto, questa volta dietro Andy Murray e Rafael Nadal.

I risultati del leaderboard vanno però letti con cautela. Nell’ultimo anno, gli avversari di Murray sono stati nettamente superiori a quelli di Schwartzman, con una classifica mediana di 24 e una classifica media di 41.5. Per Schwartzman i numeri sono stati rispettivamente 45.5 e 54.8. Murray, Djokovic e Nadal sono giocatori molto più completi di Schwartzman, raggiungendo regolarmente i turni finali, nei quali la competizione si fa più serrata.

Il livello degli avversari è uno degli aspetti più controversi dell’analisi statistica del tennis, per cui ancora non esiste soluzione. Se vogliamo confrontare Murray e Djokovic, gli avversari non sono un fattore così rilevante. Nel corso di mesi, la fortuna può arridere l’uno o l’altro ma, nel lungo periodo, i due migliori giocatori si troveranno ad affrontare avversari all’incirca della stessa qualità.

Se però ampliamo il raggio di azione a giocatori come Schwartzman – o anche a uno dei primi 10 come Dominic Thiem – non possiamo più dare per scontato che la qualità si livelli. Prendendo a prestito dalla terminologia di altri sport, l’ATP ha un calendario estremamente sbilanciato, e sono sempre i giocatori migliori a subirne le conseguenze.

Utilizzare la qualità degli avversari come correttivo è una chiave anche per comprendere l’evoluzione nel tempo di uno specifico giocatore. Se i risultati di un giocatore migliorano, si troverà ad affrontare una competizione più agguerrita, come sarà per Schwartzman nei tornei Master sulla terra battuta – a cui parteciperà per la prima volta di fila – della stagione 2017.

Se i suoi numeri alla risposta avranno un calo, sarà perché sta in effetti giocando peggio o perché semplicemente ha mantenuto il livello precedente ma contro avversari più forti?

Correggere per il livello degli avversari

Per un’effettiva comparazione tra giocatori, dobbiamo identificare gli elementi in comune nel loro calendario. Anche nell’ipotesi che non abbia mai giocato contro, qualsiasi coppia di giocatori regolarmente presenti sul circuito ha giocato contro molti degli stessi avversari.

Ad esempio, dall’inizio del 2016, diciotto dei giocatori affrontati da Murray e Djokovic sono stati gli stessi, e alcuni di questi più di una volta. Nelle parti basse della classifica, i giocatori tendono ad aver giocato contro un minor numero dei medesimi avversari ma, come vedremo, è un ostacolo superabile.

Questa è la metodologia correttiva: per una coppia di giocatori, serve trovare tutti gli avversari affrontati sulla stessa superficie. Ad esempio, sia Murray che Djokovic hanno giocato contro David Goffin sulla terra negli ultimi sedici mesi. Murray ha vinto il 53.7% dei punti alla risposta contro Goffin, mentre Djokovic solo il 42.1%, che significa che Djokovic ha risposto peggio di circa il 22% rispetto a Murray.

Si ripete la stessa procedura per ogni combinazione giocatore-superficie, si ponderano i risultati in modo che le partite più lunghe (o un numero maggiore di partite) abbiano un peso superiore, e si trova la media.

Il risultato finale per i primi due giocatori restituisce un valore del 2.3% superiore per Djokovic (si parla di valore percentuale, non di punti percentuali. Un giocatore molto forte alla risposta vince circa il 40% dei punti alla risposta, e un miglioramento del 2.3% si traduce in circa il 41% dei punti vinti).

I calcoli suggeriscono che Murray abbia giocato contro avversari dal servizio più debole: dall’inizio del 2016, ha vinto il 42.9% dei punti alla risposta, rispetto al 43.3% di Djokovic – una differenza più piccola di quella trovata correggendo per il livello degli avversari.

Necessità di passaggi intermedi

Serve un’analisi più approfondita per confrontare un giocatore come Schwartzman con i giocatori di vertice, visto che i rispettivi calendari si sovrappongono molto meno frequentemente. Prima quindi di correggere i numeri alla risposta di Schwartzman dovremo procedere per passaggi intermedi.

Iniziamo con l’attuale numero 3 Stanislas Wawrinka. Applichiamo due volte il procedimento precedentemente descritto: per Wawrinka e Murray e poi per Wawrinka e Djokovic. I numeri mostrano che il gioco alla risposta di Wawrinka è più debole di quello di Murray del 24.3% e di quello di Djokovic del 22.5%.

Le percentuali di Wawrinka confermano quanto già trovato, indicando che Djokovic sia leggermente meglio del suo rivale. Ponderando i due numeri per le dimensioni del campione – che, in questo caso, è quasi identico – apportiamo un lieve correttivo ai due confronti e concludiamo che il gioco alla risposta di Wawrinka è il peggiore di quello di Murray del 22.4%.

Per generare numeri corretti per livello degli avversari per ogni successivo giocatore, si segue lo stesso procedimento. Per il numero 4 Roger Federer, facciamo girare l’algoritmo tre volte, una per ogni giocatore sopra di lui in classifica, e mettiamo poi insieme i risultati. Per il numero 34 Schwartzman, applichiamo il procedimento 33 volte. Grazie ai poteri dell’informatica, bastano pochi secondi per correggere sedici mesi di statistiche alla risposta per i primi 50 della classifica ufficiale.

La tabella riepiloga i risultati per il 2016-2017. I giocatori sono elencati per “punti vinti alla risposta relativi” (PVR REL), dove una valutazione di 1.0 è arbitrariamente assegnata a Murray e dove una valutazione di 0.98 significa che un giocatore vince il 2% in meno di punti alla risposta di Murray contro avversari equivalenti.

La colonna “EX PVR” fornisce una rappresentazione più familiare di quei numeri: la valutazione per il giocatore in cima alla classifica è impostata a 43.0% – approssimativamente il migliore valore di PVR di qualsiasi giocatore nelle ultime stagioni – e la valutazione di tutti gli altri è aggiustata di conseguenza.

Le ultime due colonne mostrano l’effettiva frequenza di punti vinti alla risposta dal giocatore e la posizione tra i primi 50 della classifica.

Class. Giocatore     PVR REL EX PVR  Effettivo  Class.  
1      Schwartzman   1.04    43.0%   42.4%      4  
2      Djokovic      1.02    42.1%   43.3%      1  
3      Murray        1.00    41.2%   42.9%      2  
4      Nadal         0.98    40.3%   42.6%      3  
5      Goffin        0.97    40.1%   41.3%      5  
6      Simon         0.96    39.6%   40.1%      9  
7      Nishikori     0.95    39.3%   40.1%      10  
8      Ferrer        0.95    39.1%   40.6%      7  
9      Federer       0.94    38.7%   38.7%      15  
10     Monfils       0.93    38.5%   39.8%      11  

Class. Giocatore     PVR REL EX PVR  Effettivo  Class.
11     Bautista Agut 0.93    38.3%   40.3%      8  
12     Harrison      0.92    37.9%   36.7%      33  
13     Gasquet       0.92    37.9%   40.8%      6  
14     Evans         0.91    37.6%   36.9%      27  
15     Del Potro     0.91    37.5%   36.8%      32  
16     Paire         0.90    37.0%   38.1%      19  
17     Zverev        0.90    36.9%   36.9%      28  
18     Dimitrov      0.89    36.4%   38.2%      18  
19     Fognini       0.88    36.4%   39.7%      12  
20     Verdasco      0.88    36.4%   38.3%      16  

Class. Giocatore     PVR REL EX PVR  Effettivo  Class.
21     Sousa         0.88    36.2%   38.3%      17  
22     Thiem         0.88    36.2%   38.1%      20  
23     Wawrinka      0.88    36.1%   37.5%      22  
24     Zverev        0.88    36.0%   37.5%      23  
25     Ramos         0.87    35.9%   38.9%      14  
26     Edmund        0.86    35.5%   36.1%      37  
27     Sock          0.86    35.5%   36.6%      34  
28     Troicki       0.86    35.4%   37.1%      26  
29     Cilic         0.86    35.4%   37.3%      25  
30     Carreno Busta 0.86    35.3%   39.4%      13  

Class. Giocatore     PVR REL EX PVR  Effettivo  Class.
31     Raonic        0.86    35.2%   36.1%      38  
32     Cuevas        0.85    35.1%   36.9%      29  
33     Berdych       0.85    35.1%   36.9%      30  
34     Coric         0.85    34.9%   36.1%      39  
35     Kyrgios       0.85    34.9%   35.7%      41  
36     Kohlschreiber 0.84    34.7%   37.9%      21  
37     Tsonga        0.84    34.6%   36.2%      36  
38     Querrey       0.83    34.3%   34.6%      44  
39     Pouille       0.82    33.9%   36.9%      31  
40     Lopez         0.81    33.2%   35.2%      43  

Class. Giocatore     PVR REL EX PVR  Effettivo  Class.
41     Haase         0.80    33.0%   36.1%      40  
42     Lorenzi       0.80    32.9%   37.5%      24  
43     Young         0.78    32.2%   36.3%      35  
44     Tomic         0.78    32.1%   34.1%      45  
45     Mahut         0.76    31.4%   35.4%      42  
46     Johnson       0.75    31.0%   33.8%      46  
47     Mayer         0.74    30.3%   33.5%      47  
48     Isner         0.73    30.0%   29.8%      49  
49     Muller        0.72    29.8%   32.4%      48  
50     Karlovic      0.63    25.9%   26.4%      50

Qual è la grande sorpresa? Che Schwartzman è al primo posto! Se la classifica media degli avversari è stata considerevolmente più alta (cioè avversari meno forti) di quella dei giocatori di vertice, sembra che però Schwartzman abbia dovuto affrontare giocatori con un servizio ben più incisivo di quelli affrontati da Murray o Djokovic.

I primi cinque dell’elenco – Schwartzman, Murray, Djokovic, Nadal e Goffin – non costringono a rivedere la gerarchia di chi consideriamo i migliori alla risposta nel circuito, ma l’indice corretto per livello degli avversari offre certamente ulteriore prova dell’appartenenza di Schwartzman al gruppo.

Si possono trarre simili conclusioni per i giocatori in fondo all’elenco. I cinque valutati come peggiori dall’indice corretto per livello degli avversari – Steve Johnson, Florian Mayer, John Isner, Gilles Muller, e Ivo Karlovic – sono gli stessi che troviamo in fondo alla classifica degli effettivi PVR, con solo Isner e Muller a scambiarsi di posto.

Questa profonda coerenza in cima e alla base dell’elenco è rassicurante: pur correggendo per un aspetto molto importante, l’indice non sta generando alcun esito davvero privo di significato.

Peculiarità

Ci sono tuttavia alcune peculiarità. Tre giocatori fanno molto bene quando il loro gioco alla risposta è corretto per il livello degli avversari: Ryan Harrison, Daniel Evans, e Juan Martin Del Potro, ciascuno dei quali passa dalla metà inferiore ai primi 15. In un certo senso, si tratta di un correttivo per superficie per Harrison e Evans, visto che entrambi hanno giocato quasi esclusivamente sul cemento.

I giocatori vincono meno punti alla risposta sulle superfici veloci (e superfici più veloci richiamano giocatori che fanno del servizio la loro arma, amplificando l’effetto), quindi inserendo un correttivo per livello di competizione, il giocatore che gioca solo sul cemento vedrà i suoi numeri migliorare.

Del Potro invece è stato pesantemente condizionato da un gruppo di avversari molto forte, e nel suo caso l’aggiustamento gli riconosce di aver dovuto giocare contro un livello così alto.

Le statistiche alla risposta di molti tra gli specialisti della terra subiscono un correttivo di segno sbagliato. Il finalista del Monte Carlo Masters 2017 Albert Ramos scende dalla 14esima alla 25esima posizione, Pablo Carreno Busta dalla 13esima alla 30esima. Anche i numeri di Roberto Bautista August e Paolo Lorenzi diminuiscono in modo deciso.

Siamo di fronte all’effetto opposto rispetto a quanto accaduto a Harrison e Evans: gli specialisti della terra giocano più tornei su quella superficie affrontando giocatori dal servizio più debole, e in questo modo le loro medie stagionali li fanno apparire più forti alla risposta di quanto in realtà siano.

E sembra che siano tutti giocatori con rendimenti scadenti sul cemento: inserendo nell’algoritmo solo i risultati sulla terra, Bautista Agut, Ramos, e Carreno Busta si sono posizionati tra i primi 12 giocatori per punti vinti alla risposta corretti per livello degli avversari. Sono le prestazioni deficitarie sul veloce ad abbassare le loro statistiche nel lungo periodo.

Andando oltre i PVR

Il potenziale di calcolo di questo algoritmo – o di un algoritmo simile a questo – va molto oltre la semplice correzione dei punti vinti alla risposta in funzione del livello di qualità della competizione sul circuito maggiore.

Potrebbe essere utilizzato per qualsiasi statistica e, se i valori alla risposta corretti per avversari fossero incrociati con quelli dei punti vinti al servizio, si arriverebbe a un sistema complessivo di valutazione dei giocatori verosimile.

Un sistema di valutazione di questo tipo acquisirebbe maggiore solidità se fosse esteso ai giocatori oltre la posizione 50 della classifica. Così come Schwartzman non ha ancora affrontato molti degli stessi avversari dei giocatori di vertice, anche i migliori nel circuito Challenger non condividono molti avversari con i giocatori regolarmente impegnati sul circuito maggiore.

C’è però sufficiente sovrapposizione da poter capire più precisamente – combinando gli avversari in comune di decine di giocatori – come la competizione nel circuito Challenger si raffronta a quella dei massimi livelli nel tennis.

In sintesi, si possono mettere a confronto livelli adiacenti – il vertice con i giocatori di media classifica (diciamo dal 21 al 50), la media classifica con i 50 successivi e così via – per capire con maggiore dettaglio quanto debbano migliorare i giocatori per raggiungere determinati obiettivi.

Da ultimo, la correzione di statistiche al servizio e alla risposta tale da ottenere numeri per ciascun giocatore – in ogni stagione della carriera – neutrali rispetto alla tipologia di avversari, permetterà di fare più chiarezza su quali giocatori stiano migliorando e di quanto.

La classifica ufficiale e il sistema Elo forniscono già molte informazioni al riguardo, ma sono a volte tratti in inganno da vittorie fortunose o di misura o da avversari con rendimento altalenante. E non sono in grado di isolare statistiche individuali, un aspetto molto utile per comprendere lo sviluppo di un giocatore.

Correggere per il livello degli avversari è una pratica standard nell’analisi statistica di molti altri sport, e potrà aiutare anche l’evoluzione delle analisi nel tennis.

Se non altro, ha mostrato che un rendimento estremo – come il gioco alla risposta di Schwartzman – è ben più che un caso fortuito e che la grandezza nella risposta al servizio non è propria solo dei Fantastici Quattro.

Diego Schwartzman’s Return Game Is Even Better Than I Thought

Note dal primo hackathon del tennis

di Stephanie Kovalchik // OnTheT

Pubblicato il 19 febbraio 2018 – Traduzione di Edoardo Salvati

Dopo la vittoria di Roger Federer agli Australian Open 2018, è tempo di conoscere i vincitori della prima competizione hackathon “Australian Open vs Intelligenza Artificiale”. Di seguito, esamino i modelli vincenti e mi soffermo sul loro significato per il futuro delle previsioni sull’esito dei punti nel tennis.

Un concorso per cervelli informatici

All’inizio dell’anno il Game Insight Group di Tennis Australia, la Federazione australiana, ha indetto un proprio concorso di tennis in cui a sfidarsi non erano colpi di racchetta, ma fantasia cerebrale e destrezza informatica: il primo hackhaton nella storia del tennis.

Sponsorizzato da crowdAnalytix, l’hackathon “Australian Open vs Intelligenza Artificiale” è stata la prima competizione nel tennis basata sull’uso di dati per risolvere una specifica richiesta, l’automatizzazione tramite algoritmo della categorizzazione dei colpi in vincenti, errori forzati e non forzati.

Questo grazie alla possibilità per i partecipanti di analizzare – a partire dal 2 gennaio 2018 – un campione di 10.000 punti delle partite degli Australian Open.

IMMAGINE 1 – Esiti predetti dei punti

Non si trattava solo di un contesto in cui ricercatori e programmatori erano motivati a esplorare i confini del contributo che l’intelligenza artificiale è in grado di dare al tennis, ma anche del primo esempio di condivisione pubblica di un enorme massa di dati contenenti informazioni puntuali sulla disposizione di giocatori e pallina in campo nel corso di un’intera partita. 

I modelli vincenti sono stati scelti alla fine delle tre settimane di competizione. Prima di vedere quali soluzioni hanno prevalso, osserviamo da vicino il campo partecipanti.

Fotografie dall’hackathon

Si sono iscritti 750 partecipanti da 55 paesi, che hanno concorso con un totale complessivo di 2731 soluzioni. Con 223 partecipanti è stata di gran lunga l’India la più rappresentata, seguita dagli Stati Uniti con 78 e dall’Australia con 51.

IMMAGINE 2 – Partecipanti all’hackathon “Australian Open vs Intelligenza Artificiale”

Per il 90% i partecipanti erano singole persone. I due codici di scrittura più comuni nelle soluzioni presentate sono stati R, leggermente più utilizzato, e Python.

I vincitori dell’hackathon

I vincitori finali sono stati selezionati sulla base del rendimento del modello rispetto a un campione di dati prova e in funzione della qualità del prospetto descrittivo dell’approccio metodologico.

Il campione di dati prova non è stato reso disponibile ai partecipanti per evitare il rischio di overfitting – cioè di eccessivo adattamento – e per fornire la valutazione più realistica possibile di come il modello si comporterebbe nell’applicazione concreta. 

Il primo premio è andato a Scott Sobel, che ha battuto gli altri quattro finalisti. Sobel è un programmatore americano che ha raggiunto un livello di accuratezza complessivo del 95% (98% per i vincenti, 89% per gli errori forzati e 95% per i non forzati). In altre parole, Sobel ha costruito un modello automatizzato che ci si attende concordi con i valutatori statistici di una partita sull’esito di 95 punti su 100.

È interessante notare come alcune caratteristiche della soluzione vincente sono comuni a quelle degli altri modelli finalisti, le più significative delle quali sono state:

  • analisi congiunta dei dati delle partite maschili e femminili per una maggiore elaborazione di calcolo
  • ampio ricorso all’ingegnerizzazione di variabili derivate
  • tecnica del potenziamento (boosting).

Nel suo modello, Sobel ha fatto ampio ricorso all’ingegnerizzazione di variabili derivate, includendone più di 1000 rispetto a quelle fornite in partenza. Lo sviluppo è stato portato avanti in R, con uso estremo della tecnica del potenziamento del gradiente (gradient boosting), così come fatto da tre dei cinque modelli finalisti.

Utilizzi futuri

L’hackathon “Australian Open vs Intelligenza Artificiale” ha prodotto uno strumento altamente sofisticato, che potrebbe essere il primo grande passo per automatizzare la categorizzazione degli esiti dei punti delle partite.

Ha contestualmente mostrato il valore potenziale dei dati nel tennis e degli incredibili risultati che si possono ottenere quando informazioni puntuali sono messe a disposizione di super appassionati di tennis con un talento per l’analisi statistica.

AO to AI Hackathon Winners Announced

Valori di riferimento nell’analisi punto per punto

di Jeff Sackmann // TennisAbstract

Pubblicato il 17 gennaio 2017 – Traduzione di Edoardo Salvati

In un precedente articolo ho illustrato una possibile futura configurazione delle statistiche relative agli errori. Un ampio spettro di statistiche avanzate in molteplici sport, dal baseball all’hockey su ghiaccio – e progressivamente anche nel tennis – segue lo stesso algoritmo di base:

  1. raggruppare gli eventi (colpi, opportunità e qualsiasi altro) in categorie;
  2. determinale livelli attesi di prestazione o rendimento – solitamente medie del circuito – per ogni categoria;
  3. confrontare i giocatori (o i game o i tornei specifici) con quei livelli attesi di prestazione.

Il primo passaggio è di gran lunga il più complicato, perché la suddivisione in categorie dipende in larga parte dai dati a disposizione.

Nel baseball ad esempio, le statistiche di media difensiva avevano inizialmente poco margine di analisi oltre al numero di ribattute, che invece oggi possono essere raggruppate in funzione della posizione esatta, dell’angolo di lancio, della velocità di uscita dalla mazza e altro ancora.

Avere più dati non rende il compito necessariamente più facile, considerando la varietà di metodi di classificazione potenzialmente utilizzabili.

L’algoritmo che ho creato

Uno scenario simile si presenterà nel tennis se e quando, nel tempo, i dati raccolti da Hawk-Eye (o un sistema analogo) verranno resi di pubblico dominio. Per il momento, chi è interessato a fare analisi ha comunque molto materiale, in particolare i più di 1.6 milioni di colpi (a oggi più di 2 milioni, n.d.t.) raccolti grazie al Match Charting Project.

La sequenza di codifica dei colpi che ho creato per il Match Charting Project rende un passaggio dell’algoritmo relativamente immediato, perché è un sistema che classifica i colpi in due modi principali: il tipo (dritto, rovescio, rovescio tagliato, volée di dritto, etc) e la direzione (al centro o verso l’angolo destro o sinistro).

Pur tralasciando molti dettagli (profondità, velocità, rotazione, etc) si tratta del maggior numero di dati che ci si può aspettare un valutatore riesca a raccogliere in tempo reale sulla partita.

Per fare un esempio, si possono usare i dati del Match Charting Project per calcolare la media degli errori non forzati nel circuito maschile quando un giocatore prova a colpire un dritto incrociato, per poi confrontare tutti gli altri giocatori rispetto a quel valore di riferimento.

La media del circuito è del 10%, la frequenza di errori non forzati di Novak Djokovic è del 7% e quella di John Isner è del 17%. Naturalmente, non ci si può limitare a questo nel confronto tra efficacia di dritti incrociati. Se in media un giocatore del circuito ottiene un vincente dal 7% di dritti incrociati, la frequenza di Djokovic è solo del 6%, mentre quella di Isner è del 16%.

Serve una prospettiva più allargata

È necessario quindi adottare una prospettiva più allargata. Invece dei singoli colpi, credo sia di maggiore interesse analizzare le opportunità di colpo. Anziché domandarsi cosa succeda quando un giocatore è nella posizione di giocare un determinato colpo, dovremmo cercare di capire cosa accada quando quello stesso giocatore ha la possibilità di tirare un determinato colpo in una specifica zona del campo.

Questo diventa particolarmente importante se si vuole superare il fraintendimento che risiede nella distinzione tra errori forzati e non forzati (così come quello della linea di separazione tra errori e vincenti dell’avversario, frutto della stessa vicinanza interpretativa per cui i vincenti sono semplicemente colpi così ben piazzati che l’avversario non riesce nemmeno a commettere un errore forzato).

Nell’esempio con Djokovic e Isner, il denominatore era “dritti in una specifica zona del campo che il giocatore aveva una ragionevole opportunità di rimettere in gioco”, vale a dire vincenti ed errori non forzati di dritto.

In questo caso non stiamo confrontando grandezze omogenee: a parità di opportunità, Djokovic riuscirà ad arrivare su più palline, commettendo forse errori non forzati quando nella medesima circostanza considereremmo errori forzati quelli di Isner.

Esiti delle opportunità di colpo

Per esattezza, con opportunità di colpo intendo quelle definite dalla decisione di gioco presa dall’avversario, a prescindere da come il giocatore stesso riesca a replicare o se riesca anche solo ad arrivare con la racchetta sulla pallina. Ad esempio, ipotizzando che entrambi i giocatori siano destrimani, nel disegno è evidenziato un dritto incrociato.

Il giocatore A è quello che gioca il dritto e offre al giocatore B un’opportunità di colpo. Questa è una delle varie classificazioni degli esiti che potrebbero derivarne, con – tra parentesi – le abbreviazioni che ho utilizzato anche nei grafici a seguire:

  • il giocatore B non riesce a raggiungere la pallina, determinando un vincente per il giocatore A (vs V);
  • il giocatore B raggiunge la pallina, ma commette un errore forzato (EF);
  • il giocatore B commette un errore non forzato (ENF);
  • il giocatore B rimette la pallina in gioco ma finisce per perdere il turno (pi-P);
  • il giocatore B rimette la pallina in gioco, presenta al giocatore A un colpo “giocabile” e finisce per vincere il punto (pi-V);
  • il giocatore B costringe il giocatore A a commettere un errore forzato (EF ind);
  • il giocatore B colpisce un vincente (V).

Come sempre, per ogni dato denominatore si potrebbero individuare varie categorie, magari unendo errori forzati e non forzati, o scomponendo ulteriormente la tipologia “in gioco” per identificare se il giocatore si è posizionato in modo da concludere il punto velocemente. Ancora, si potrebbero analizzare categorie completamente differenti, come la selezione del colpo.

Le categorie sopra elencate forniscono comunque una valida idea generale di come i giocatori si comportino di fronte a opportunità differenti e come quelle opportunità siano di fatto diverse l’una dall’altra.

I grafici a seguire mostrano – mantenendo le sigle dell’esempio precedente – gli esiti per il giocatore B basati sui colpi del giocatore A, raggruppati solo per tipologia di colpo.

IMMAGINE 1 – Esiti di opportunità di colpo suddivisi per tipologia

Gli esiti sono messi uno sopra all’altro dal peggiore al migliore. In basso troviamo la percentuale di vincenti del giocatore A (vs V), cioè quelle opportunità in cui il giocatore B – dal cui punto di vista stiamo facendo l’analisi – non è riuscito nemmeno a raggiungere la pallina. In alto troviamo la percentuale dei vincenti (V) colpiti dal giocatore B di fronte all’opportunità di colpo.

Come ci si poteva attendere, i dritti presentano le opportunità più difficili: il 5.7% diventa un vincente e un altro 4.6% risulta in errori forzati. I giocatori sono in grado di convertire quelle opportunità in punti vinti solo il 42.3% delle volte, rispetto al 46.3% di fronte a un rovescio, al 52.5% di fronte a un rovescio tagliato o (in chip) e al 56.3% di fronte a un dritto tagliato.

Il grafico si basa su circa 347 mila colpi, cioè tutte le opportunità da fondo (esclusi i servizi, che necessitano di trattamento separato) che sono emerse in più di 1000 partite tra due destrimani presenti nel database.

Naturalmente, esistono numerosissime altre variabili per distinguere ulteriormente quei colpi del semplice raggruppamento per tipologia. L’immagine 2 mostra gli esiti delle opportunità di colpo in vari momenti dello scambio quando il giocatore A colpisce un dritto.

IMMAGINE 2 – Esiti di opportunità di colpo in vari momenti dello scambio

La colonna più a sinistra può essere letta come l’insieme dei risultati delle “opportunità di giocare un terzo colpo”, vale a dire esiti quando la risposta al servizio è un dritto. Anche in questo caso i numeri sono in linea con le attese: il momento migliore per giocare un vincente con un dritto è il terzo colpo, nella tattica chiamata “servizio più uno”.

Lo si può vedere in altro modo nella colonna adiacente, che rappresenta le opportunità di giocare un quarto colpo. Se l’avversario gioca un dritto in campo come primo colpo dopo il servizio nella tattica “servizio più uno”, c’è una probabilità del 10% che il giocatore non riesca nemmeno a raggiungere la pallina. In media, la probabilità di un giocatore di vincere il punto da quella posizione è solo del 38.4%.

Dopo il terzo e quarto colpo, ho suddiviso le opportunità in quelle a disposizione del giocatore al servizio (quinto colpo, settimo colpo e così via) e in quelle a disposizione del giocatore alla risposta (sesto, ottavo colpo, etc). Come si osserva, dal quinto colpo in avanti non c’è molta differenza, quantomeno di fronte a un dritto.

Esaminiamo un’ulteriore grafico: gli esiti delle opportunità di colpo quando l’avversario gioca un dritto in varie direzioni (sempre in una partita tra destrimani).

IMMAGINE 3 – Esiti di opportunità di colpo per dritto giocato in varie direzioni

C’è poca differenza tra i due angoli, ed è evidente che sia più semplice approfittare di una opportunità di colpo al centro del campo rispetto a ciascuno dei due angoli.

È interessante notare come di fronte a un dritto rimesso in gioco – a prescindere da dove sia mirato – il giocatore medio abbia una probabilità inferiore al 50% di vincere il punto.

Siamo in presenza di un’occorrenza di effetto (o distorsione) di selezione generante confusione e che occasionalmente si verifica nelle statistiche di tennis: visto che una percentuale importante di colpi è rappresentata da errori, il giocatore che ha colpito la pallina in campo è temporaneamente in una situazione di vantaggio.

Passi successivi

Se vi steste domandando quale sia il senso di tutto questo, posso capire (e apprezzo il fatto che abbiate letto sin qui nonostante i vostri dubbi). Senza prima arrivare all’analisi di situazioni molto più specifiche – e forse nemmeno in quel caso – queste medie del circuito non sono più che curiosità.

Mostrare che un dritto ha più efficacia che un rovescio tagliato o che tirare agli angoli del campo è più produttivo che mirare al centro certamente non rivoluziona l’analisi statistica nel tennis.

In definitiva, queste medie sono solo uno strumento per quantificare con maggiore dovizia il rendimento di determinati giocatori.

L’esplorazione di algoritmi come questo, unita all’incremento dei dati raccolti con il Match Charting Project (che ha da poco superato le 3600 partite totali, n.d.t.), permetterà di conoscere meglio le dinamiche di gioco dei migliori del mondo, e quali aspetti li rendano così tanto più bravi di tutti gli altri.

Benchmarks for Shot-by-Shot Analysis