L’impatto dell’utilizzo del cronometro al servizio agli US Open 2018

di Jeff Sackmann // TennisAbstract

Pubblicato il 19 settembre 2018 – Traduzione di Edoardo Salvati

Per la prima volta in assoluto tra i tornei del Grande Slam, gli US Open 2018 hanno introdotto il cronometro al servizio. I secondi a disposizione del giocatore dal momento in cui è terminato un punto all’inizio del successivo sono stati fissati a 25, dal precedente limite ufficiale di 20 secondi, in parte per prendere consapevolezza che una pausa così breve avrebbe comunque continuato a non essere rispettata, e per allinearsi all’ATP e alla WTA, che da tempo hanno quel limite a 25 secondi.

Si è sperimentato l’utilizzo del cronometro nei tornei estivi in Nordamerica, e già in precedenza mi è capitato di misurarne l’impatto sulla durata, in un articolo per l’Economist e in uno su questo blogIn entrambi, la conclusione è stata che il cronometro al servizio sembra rallentare le partite. Con dati limitati a disposizione – il numero di punti e la durata di ogni partita – ho trovato che le partite di tutti i tornei con il cronometro sono state più lente tra 0.3 e 2.0 secondi per punto. Significa qualche minuto a partita, non poco per una novità introdotta per velocizzare il gioco.

US Open 2017 vs US Open 2018

Gli US Open forniscono un campione più ampio di partite da analizzare e dati molto più specifici. Prima di addentrarci nella ricerca di una risposta più strutturata al problema, osserviamo le partite giocate a Flushing Meadow sotto la semplice lente dei secondi per punto. La tabella riepiloga il calcolo per il tabellone di singolare maschile dell’edizione 2017 (senza il cronometro e con un limite teorico di 20 secondi) e dell’edizione 2018 (con il cronometro a 25 secondi).

Tabellone   2017   2018  
Uomini      40.0   43.4  
Donne       40.7   42.3

Sono partite decisamente lente. Di tutte quelle estive che ho esaminato, solo nel tabellone maschile a Washington si è andati oltre i 42 secondi per punto.    

È probabile però che il caldo torrido abbia inciso, almeno in parte, sui tempi di gioco. La regola delle temperature estreme ha certamente rallentato lo svolgimento, visto che prevede un’interruzione di dieci minuti dopo i primi due set per le partite femminili e dopo i primi tre set per quelle maschili, quando le condizioni meteo sono impossibili da sostenere. Sono interruzioni che rientrano nella durata ufficiale della partita, quindi vanno in un modo o nell’altro considerate.

Evitiamo del lavoro addizionale escludendo interamente la regola delle temperature estreme e confrontando partite del 2017 e 2018 in cui un giocatore ha vinto tutti i set, per nessuna delle quali è stata applicata la regola. Rimaniamo con metà dei dati di partenza.

Tabellone   Punteggio minimo 
            2017      2018   
Uomini      39.2      43.4  
Donne       39.8      41.3

Non me lo aspettavo. Le partite con il minimo punteggio di set quest’anno sono state giocate quasi con la stessa velocità di quelle più lunghe, anche senza la possibile applicazione della regola dei 10 minuti. Forse i giocatori non si dilungano nelle partite a punteggio minimo perché così tante di queste sono a senso unico. O forse è la combinazione di giocatori a essere diversa. Quale la ragione, questo paragone tra mele e mele mostra che le mele del 2018 sono state un bel po’ più lunghe da mangiare di quelle dello scorso anno.

Di nuovo, ma con dati migliori

La regola delle temperature estreme ha evidenziato il problema di usare la durata complessiva delle partite, che include le interruzioni tra un set e l’altro, i cambi di campo, le richieste di Hawk-Eye, i nastri e qualsiasi altra forma di ostacolo al flusso del gioco che si possa pensare. Sono tutti ritardi che nel lungo termine verranno controbilanciati, ma nel lungo termine, citando John Maynard Keynes, non ci sarà nemmeno più nessuno. A oggi, abbiamo visto solo poche centinaia di partite su ciascun circuito usare il cronometro al servizio.

Lo Slamtracker degli US Open riporta i marcatori temporali all’inizio di ciascun punto della maggior parte delle partite di singolare maschile. Pur non essendo ancora la perfezione – non dice ad esempio quando finisce il punto – con la giusta cura è del materiale su cui si può lavorare.

Metodologia

Ho iniziato identificando tra i dati di Slamtracker ogni punto sulla prima di servizio che non ha portato alla conclusione del game di servizio. Poi ho escluso le seconde di servizio perché il tempo utilizzato tra la prima e la seconda cambia radicalmente da giocatore a giocatore, e non è un aspetto di cui si preoccupa l’introduzione del cronometro al servizio. Infine, ho eliminato anche i punti di chiusura del game perché le pause a seguito di quei punto sono più lunge, in quanto il servizio passa all’altro giocatore e spesso si cambia anche campo. 

Rimangono così circa 16.000 punti, cioè un numero molto interessante su cui fare calcoli. Da qui, ho cercato di ricavare quanto tempo sia stato dedicato al tennis effettivo, vale a dire servizio, risposta, rovesci tagliati, questo tipo di cose. Viene fuori che ogni colpo aggiuntivo comporta circa due secondi in più tra l’inizio di un punto e l’inizio del successivo.

Una parte potrebbe dipendere dall’accumulo di fatica, che allunga la ripresa del punto, ma lascio ai giocatori il beneficio del dubbio e ipotizzo che si tratti di tempo impiegato per giocare. Sono anche generoso e affermo che il primo colpo – la durata di un ace o di un servizio vincente – è cinque secondi, in modo da lasciare più tempo per i movimenti di servizio più elaborati.

Tra tutto, abbiamo 16.000 punti per i quali si può stimare la lunghezza della pausa tra un punto e l’altro. Se tra i marcatori per il punto 1 e il punto 2 ci sono 35 secondi e il punto 1 era di cinque colpi – 5 secondi per il primo colpo, 8 secondi per i successivi per un totale di 13 secondi – concludiamo che il giocatore al servizio ha impiegato 22 secondi per detergere il sudore, scegliere le palline meno consumate e prepararsi a servire. 

Un ultimo passaggio, sempre in vena di generosità: per ogni partita, ho eliminato il 5% più lungo delle pause tra un punto e l’altro. Alcuni sono probabilmente dovuti a Hawk-Eye, o nastri al servizio o ad altre interruzioni non presenti nei dati. Ma probabilmente ho filtrato anche dei casi legittimi in cui il giocatore al servizio era davvero lentissimo, ma voglio fare di tutto per ottenere un risultato non contaminato da troppi fattori esterni.

Risultati

Basta con la metodologia, ecco i risultati. La tabella mostra il numero di pause tra un punto e l’altro rispettivamente al di sotto dei 20 e dei 25 secondi, e al di sopra dei 25 e 30 secondi. Non dimentichiamo che questi tempi, e le frequenze temporali che ne risultano, derivano da una serie di ipotesi – ufficiali – favorevoli ai giocatori. Sono abbastanza sicuro che con un cronometro alla mano per ciascuno dei 16.000 punti considerati, è più probabile che arriveremmo di persona a un conteggio uguale o più lungo di quanto non ne troveremmo di più corto. 

Pausa tra punti   2017    2018    Variazione (%)  
Meno di 20sec     86.5%   78.6%   -9.2%  
Meno di 25sec     97.0%   95.1%   -2.0%  
Più di 25sec      3.0%    4.9%    63.1%  
Più di 30sec      0.4%    0.8%    91.0%

Non sono molto numerosi le pause eccessivamente lunghe – meno di una ogni 20 punti quest’anno – ma sono aumentate vertiginosamente rispetto al 2017. Potrebbe dipendere dalla modifica della regola dai 20 ai 25 secondi ma, come abbiamo visto, le partite con il limite di venti secondi nel 2017 si sono giocate velocemente quasi quanto quelle con il limite di venticinque secondi (in termini di durata per punto). Non penso quindi sia un aspetto a cui guardare. 

Il caldo è naturalmente un fattore, anche escludendo le interruzioni generate dall’applicazione della regola delle temperature estreme. Temperature più alte e umide tendono ad affaticare i giocatori più velocemente, e questo si riflette poi nel tempo impiegato a recuperare tra un punto e l’altro. Forse questo è il motivo per cui dall’anno scorso le pause di 30 o più secondi sono quasi raddoppiate.

Restano comunque diversi interrogativi sul cronometro al servizio e sulla sua modalità d’impiego da parte degli arbitri. La frequenza delle pause di 30 o più secondi – lo 0.8% – sembra ininfluente, ma su 16.000 punti rappresenta più di 100 occorrenze. Nell’analisi sono riuscito a includere solo poco meno della metà dei punti in partite con lo Slamtracker, che significa all’incirca tre quarti del tabellone di singolare.

Quindi, potrebbero esserci più di 300 circostanze in tutto il torneo in cui un giocatore impiega più di 30 secondi prima di servire il punto successivo (e non dimentichiamo di aver escluso il 5% più lungo tra queste). Il numero delle pause di almeno 25 secondi è un’evidenza ancora più forte: seguendo lo stesso ragionamento, potrebbero essere circa 2000 le volte di superamento del limite dei 25 secondi. Sicuramente alcune di queste sono state sanzionate, ma non più di una minima frazione.

Conclusioni

Come ho scritto nel precedente articolo di questo blog, causa rilevante del problema è da imputare all’abitudine dei giudici di sedia di far partire il cronometro solo quando il rumore degli spettatori si è placato. In una partita emozionante e con grande pubblico, il tempo limite diventa quindi in realtà di almeno 35 secondi. Potrebbero essere queste le istruzioni ricevute dagli arbitri, ma così è certo che le partite durino di più. Non c’è motivo per non far partire il cronometro immediatamente e interromperlo solo nelle rare occasioni in cui c’è ancora troppo rumore dopo 25 secondi. 

Questo semplice metodo per la valutazione dell’impatto del cronometro al servizio, come descritto in precedenza, continua a suggerire un rallentamento nei tempi di gioco. Un’analisi più sofisticata – resa possibile da dati più specifici per la maggior parte degli Slam – muove nella stessa direzione, mostrando quanto spesso i giocatori riescano comunque ad allungare la pausa tra un punto e l’altro. La speranza è che il cronometro al servizio sia in fase di aggiornamento, perché altrimenti servono migliorie sostanziali affinché possa contribuire a velocizzare il gioco. 

The Effect of the US Open Serve Clock

L’enigma della velocità di superficie agli US Open 2018

di Jeff Sackmann // TennisAbstract

Pubblicato il 13 settembre 2018 – Traduzione di Edoardo Salvati

Quasi tutti concordano nel dire che agli US Open 2018 i campi erano più lenti. È quello che hanno pensato i giocatori, che poi hanno ripreso i giornalisti e che il direttore del torneo ha confermato spiegando che la composizione fisica della superficie è stata leggermente alterata in modo da rallentarne la velocità. Anche Dominic Thiem, specialista della terra battuta, è arrivato a due punti dalla semifinale, quindi qualcosa è chiaramente cambiato.

E non lo metto in discussione ma, quando ho provato a misurare eventuali conseguenze per avere un’idea di chi potrebbe esserne stato favorito, ho trovato solo risultati contrastanti. Nessun metodo ha rivelato un incontrovertibile rallentamento della superficie e, secondo alcuni indici, i campi erano più veloci quest’anno. Forse era solo per caldo e umidità, anche se i numeri non forniscono indizi nemmeno su questo.

Risultati contrastanti

Per questo tipo di analisi parto di solito dal mio indice di velocità di superficie, che confronta la frequenza di ace in ogni torneo tenendo conto del tipo di giocatori al servizio e alla risposta. La carenza di statistiche avanzate ne limita l’applicazione solo ad alcuni dati di base, ma generalmente è in linea con quanto suggerisce l’intuito e non si discosta eccessivamente dal Court Pace Index (CPI), un valore basato su misurazione diretta che però non è sempre disponibile.

Utilizzando il mio algoritmo, si ottiene che la superficie degli US Open era il 5% più veloce della superficie media di un torneo del circuito maschile delle ultime 52 settimane, rispetto al 2017, quando invece era più lenta del 4%. Per quanto riguarda la velocità di superficie media di un torneo del circuito femminile, gli US Open erano più lenti del 5%, rispetto a una maggiore lentezza del 19% nel 2017. Le superfici più lente in entrambi i circuiti maggiori hanno in media il 50% di ace in meno, mentre le più veloci hanno in media il 50% di ace in più.

La durata media dello scambio è diminuita

Il 2017 non è stata solo una casualità, sia per le misurazioni effettive che per il mio indice, ma si è avvicinato al 2016, un altro anno che figura considerevolmente più lento della superficie del 2018. Si tratta di una discrepanza dovuta probabilmente a un algoritmo che si affida troppo agli ace: magari i giocatori, stremati dall’afa, hanno cercato di accorciare gli scambi più del solito o semplicemente evitare lo sforzo di rispondere alla prima di servizio con la stessa frequenza.

Ci sono prove più evidenti dell’offensività dei giocatori nel 2018 rispetto al 2017. Sui campi con lo Slamtracker (179 partite del tabellone di singolare maschile sulle 254 giocate), in media la durata di uno scambio – escludendo i doppi falli – è scesa da 4.28 colpi dello scorso anno ai 4.17 del 2018, un calo del 2.6%. La combinazione di giocatori in tabellone potrebbe incidere su questo dato (così come anche l’assegnazione dei campi più importanti a determinati giocatori), ho quindi isolato i 27 giocatori con statistiche di almeno due partite per il 2017 e il 2018. Qui, la lunghezza dello scambio è scesa, anno su anno, di circa il 3%.

Nel 2018 un tennis più aggressivo

Iniziamo ad avere un principio di spiegazione. In caso di gioco più aggressivo – magari imposto dalla necessità di adottare per il caldo estremo una tattica di precedere l’avversario nell’attaccare – gli effetti di una superficie più lenta si compensano. Possiamo approfondire l’analisi attraverso l’Indice di Offensività, che misura il rapporto tra vincenti ed errori non forzati per numero di colpi. Su tutte le partite considerate, l’Indice di Offensività è salito dal 15.3% nel 2017 al 16.1% quest’anno, un aumento del 5.7%. Nel campione di 27 giocatori con più partite in entrambi gli anni, la differenza è ancora più marcata, con un aumento dell’8.7%.

È chiaro quindi che si è visto un tennis più aggressivo nel 2018 che nella precedente edizione degli US Open. Se diamo per assodato che i campi erano più veloci, il caso è chiuso: la tattica, probabilmente forzata dalle temperature, ha surclassato la superficie. Ma se affrontiamo il problema ignorando i commenti di giocatori, giornalisti e organizzatori, gli stessi numeri conducono inequivocabilmente a una conclusione ancora più semplice, che cioè i campi erano più veloci.

Questione di tattica?

Se è la tattica a spiegare la discrepanza, un altro aspetto da valutare è la prima di servizio. Forse chi era al servizio ha rischiato di più, incrementando la frequenza di ace a discapito della percentuale di prime di servizio. I dati però non sono di conforto, visto che complessivamente la prima di servizio nelle partite seguite dallo Slamtracker è diminuita solo dello 0.07%. Nel confronto anno su anno del campione di 27 giocatori, la differenza è maggiore, ma di un trascurabile 0.3%. Se la soluzione sta nella tattica, deve trovarsi nella risposta al servizio, non nel servizio stesso.

Il processo deduttivo però ha ora qualche tentennamento, perché la tattica in risposta è più difficile da quantificare della strategia al servizio e i dati a disposizione hanno un limite applicativo intrinseco. Possiamo conteggiare le risposte vincenti e gli errori forzati indotti, cioè i punti in cui lo scambio è terminato grazie a una solida risposta. Se i giocatori alla risposta hanno concesso più ace, dovrebbe essere per via di una maggiore aggressività, preferendo a minori opportunità di scambio una migliore probabilità di vincere il punto quando effettivamente riescono a colpire la pallina.

Non è andata così, perché le risposte vincenti e gli errori forzati indotti sono scesi di un incredibile 7% anno su anno. Questo dato è a supporto della teoria di una superficie più lenta, e soddisfa le attese di quei giocatori che adottano una posizione alla risposta molto conservativa, come ad esempio Rafael Nadal, il cui rapporto risposte vincenti su errori forzati indotti è calato del 3% e Thiem, per il quale invece è sceso del 7%. Ma una superficie più lenta e un valore più basso del rapporto risposte vincenti su errori forzati indotti dovrebbe portare a meno ace, non il contrario.

Conclusioni

Giunti a questo punto, abbiamo molte più informazioni dell’inizio ma poche risposte in più. Alcuni segnali fanno pensare a una superficie più veloce, altri a una più lenta; alcuni indicano una tattica più offensiva, altri una più conservativa. A prescindere da quanto si conosca sulla composizione fisica dei campi, sono molti i fattori in grado di incidere su quella che definiamo “velocità di superficie”.

Le condizioni di estremo caldo umido degli US Open 2018 hanno certamente complicato lo scenario: uno studio che inserisse tra i parametri l’indice di calore per ogni singola partita aiuterebbe probabilmente a fare chiarezza. Potremmo anche vedere i giocatori adattarsi alle condizioni – che siano il calore o la superficie più lenta – in modi tra loro differenti. Ci può essere unanimità di opinione sul modo in cui superficie e palline hanno interagito quest’anno, ma è molto più difficile capirne esattamente il significato.

The US Open Surface Speed Puzzle

Differenze fra sessi nell’assegnazione delle penalità

di Jeff Sackmann // TennisAbstract

Pubblicato il 10 settembre 2018 – Traduzione di Edoardo Salvati

Gli episodi arbitrali della finale femminile degli US Open 2018 sono diventati argomento scottante, a non voler esagerare con gli aggettivi. Molte delle lamentele sul trattamento ricevuto da Serena Williams si fondano sulla convinzione di un atteggiamento sessista da parte del giudice di sedia, Carlos Ramos.

Chiunque segua regolarmente il tennis ha certamente osservato giocatori e giocatrici comportarsi in un modo che può sembrare più offensivo di quello di Williams, e chiunque presti attenzione ha certamente visto innumerevoli violazioni alla regola del coaching (il tentativo di un allenatore o allenatrice di dare, fuori dal campo, suggerimenti tattici o tecnici al proprio giocatore o giocatrice in campo, n.d.t.) non subire penalizzazione.

Differenze di stili e discrezionalità

Ci sono alcuni aspetti su cui è facile trovarsi d’accordo. In primo luogo, non tutti gli arbitri hanno il medesimo stile. Ad esempio, Ramos è più severo di Mohamed Lahyani. In secondo luogo, agli arbitri è concesso margine di discrezionalità, per cui la stessa infrazione potrebbe ricevere nulla o differente sanzione a seconda della partita in cui si verifica. Da ultimo, gli arbitri cercano generalmente di evitare in tutti i modi penalità di gioco.

Molte partite presentano almeno un’avvertenza, sia essa per coaching, abuso della pallina o un’ampia varietà di altre casistiche, ma solo in un una percentuale ridotta di casi la situazione peggiora determinando la perdita di un punto o di un game. Anche i giocatori si muovono tipicamente con cautela: dopo aver ricevuto un’avvertenza, non si vedono racchette spaccate o palline lanciate fuori dallo stadio con la stessa frequenza.

Le differenze tra i vari arbitri e la discrezionalità sui cui possono fare leva all’interno delle regole permette con facilità di estrapolare una specifica chiamata ed etichettarla con sessismo, razzismo, favoritismo, appoggio del giocatore locale, disprezzo verso Roger Federer o Rafael Nadal, o semplice stupidità.

La rarità di un punto o un game di penalizzazione enfatizza l’impatto delle decisioni prese durante la finale femminile, visto che, con molteplici opzioni a disposizione, difficilmente un arbitro decide di innescare la bomba di un intero game di penalità.

Un po’ di numeri

I punti e, ancor di più, i game di penalità sono così rari da rendere impossibile trarre solide conclusioni. Analizziamo comunque i dati in nostro possesso. Per mia conoscenza, nessuna entità di governo del tennis – l’ATP, la WTA, l’ITF o la USTA – ha mai reso pubblici i dati sulle penalità, sui giocatori che le ricevono o sugli arbitri che le assegnano (e sarebbe il momento perfetto per farlo, ma non ho alcuna aspettativa al riguardo). In alternativa, si può utilizzare il sempre più abbondante campione di dati del Match Charting Project, che, solo dal 2010 in avanti, comprende più di 3500 partite.

Partite non casuali ma di primaria importanza

Quelli del Match Charting Project non sono dati casuali, perché riflettono in parte le preferenze personali dei volontari che raccolgono statistiche punto per punto. Vanno bene però per lo scopo di questo articolo: le partite del Match Charting Project infatti sono tra le più importanti, con un numero sproporzionato di finali e di giocatori di vertice coinvolti, tra cui 100 partite di Williams.

Fatte queste premesse, verifichiamo le penalità in partita dal 2010 a oggi, escludendo la finale femminile degli US Open 2018. L’ultima colonna della tabella, “P%”, è la percentuale di partite in cui una penalità è stata comminata.

Partite           Totale   Penalità   P%  
Donne (tutte)     1895     13         0.69%  
Donne (Slam)      490      6          1.22%  
Donne (finali)    228      2          0.88%
  
Uomini (tutte)    1689     16         0.95%  
Uomini (Slam)     234      6          2.56%  
Uomini (finali)   371      5          1.35%

I giocatori ricevono più penalità delle giocatrici in tre diversi confronti: tutte le partite del Match Charting Project, le partite degli Slam e le finali (non ho tenuto in considerazione i game di penalità perché non esistono praticamente dati al riguardo. In più di 3500 partite, solo una volta la situazione è degenerata da richiedere un game di penalità, cioè quando Grigor Dimitrov ha perso il controllo nella finale di Istanbul 2016). I numeri relativi agli Slam sono particolarmente significativi perché è l’unica categoria in cui la selezione del giudice di sedia avviene nello stesso gruppo. Per gli altri tornei, i due circuiti utilizzano arbitri diversi.

Né equità, né sessismo

Questi numeri non sono evidenza di equità di trattamento fra sessi, tantomeno determinano l’esistenza di sessismo nei confronti delle giocatrici o dei giocatori. A parte la quantità limitata di penalità, non conosciamo nulla sui motivi scatenanti o su occorrenze analoghe che non hanno invece dato luogo a una sanzione. È possibile che i giocatori siano in generale più aggressivi nei confronti degli arbitri, e dovrebbero quindi ricevere una volta e mezzo – o anche più – le penalità comminate alle giocatrici.

Non ne ho idea ed è probabile che non lo sappia nemmeno chi si è espresso sulla diatriba tra Williams e Ramos. In questo tipo di confronti al vetriolo l’aneddotica la fa da padrona. Per dirimere la questione una volta per tutte, si dovrebbe disporre uno studio in situazione di controllo, magari dando istruzioni a un gruppo di giocatori e giocatrici di criticare l’arbitro con le stesse dinamiche comportamentali e confrontare poi i risultati. Per quanto sia un’idea divertente, non vedrà mai realizzazione.

Conclusioni

Non intendo dire che le accuse di sessismo necessitino di una validazione statistica, perché naturalmente non è così. Ma nei casi in cui i dati sono disponibili, specialmente se in possesso di alcune delle stesse entità governative schierate dalla parte accusatoria, è un peccato che siano ignorati. Seppur limitate, le informazioni che arrivano dal Match Charting Project indicano che gli uomini ricevono penalità dal giudice di sedia più frequentemente delle donne.

La USTA, l’ITF, e la WTA potrebbero intervenire facendo definitiva chiarezza sulla controversia – cioè se gli arbitri applicano il regolamento mantenendo costante imparzialità o se esistono dinamiche di trattamento privilegiato nei confronti dei giocatori – con la pubblicazione dei dettagli di tutte le partite, tra cui il numero degli avvertimenti e delle penalità e le motivazioni da cui sono scaturite, oltre ai nomi degli arbitri. Altrimenti, purtroppo, ci aspettano altre settimane di protagonismo infondato.

Gender Differences in Point Penalties

Il numero dei ritiri negli Slam non è preoccupante

di Jeff Sackmann // TennisAbstract

Pubblicato l’1 settembre 2015 – Traduzione di Edoardo Salvati

Ritirandosi sotto 0-6 0-2 nel punteggio e avendo vinto solo 5 dei 37 punti giocati, Vitalia Diatchenko si è dimostrata essere un primo turno degli US Open 2015 ancor meno difficoltoso delle attese per Serena Williams. Naturalmente, il suo ritiro ha alimentato il solito effluvio di domande su come i premi partita dei tornei dello Slam – 39.500 dollari per la giocatrice o giocatore che esce al primo turno – siano un incentivo a presentarsi e incassare l’assegno anche quando non si è nella condizione fisica ideale per giocare.

Diatchenko non è stata l’unica a perdere al primo turno senza aver concluso la partita. Di 32 partite maschili, sei sono finite con un ritiro. Nessuna però è stata così a senso unico, tutti e sei i giocatori infortunati sono stati in campo almeno due set e cinque di loro ne hanno vinto uno.

Per il fatto che fosse un primo turno con la numero 1 del mondo, e visto l’alto numero di ritiri complessivi della giornata, i commentatori di tennis saranno certamente impegnati per qualche giorno a proporre un cambiamento nella regola. Come vedremo però, c’è scarsa evidenza di alcuna tendenza e nessun bisogno di modificare le regole.

Le circostanze dei ritiri negli Slam maschili

Prima dell’ecatombe degli US Open 2015, ci sono stati solo cinque ritiri al primo turno nei tabelloni Slam di quest’anno. Il momentaneo totale di 11 ritiri è perfettamente in linea con la media annuale del periodo 1997-2004 e lo stesso numero dei ritiri al primo turno negli Slam del 1994.

Si è assistito a un lieve incremento nei ritiri al primo turno degli Slam negli ultimi 20 anni. Dal 1995 al 2004, in media dieci giocatori hanno abbandonato il primo turno ogni anno. Dal 2005 al 2014, la media è stata di 12.2, in larga parte a causa dei 19 ritiri al primo turno della precedente stagione.

Si tratta di un aumento degli infortuni e dei ritiri in generale, non un incremento nel numero di giocatori che arrivano agli Slam non in perfette condizioni fisiche. Dal 1995 al 2004, in media 8.5 giocatori si sono ritirati prima o durante la partita dopo il primo turno negli Slam, mentre nel decennio successivo, il numero è salito a 10.8.

I ritiri nei tornei non Slam del circuito hanno avuto identico andamento. Nel periodo 1995-2004, la frequenza dei ritiri è stata di circa l’1.3% e nel decennio successivo è salita a circa l’1.8% (non c’è molta differenza tra i ritiri al primo turno e nei turni successivi per i tornei non Slam).

È la tendenza ad avere infortuni a essere aumentata – esattamente quello che ci si aspetta in uno sport diventato sempre più fisico. Sulla base dei recenti risultati, non dovremmo sorprenderci nel vedere un aumento dei ritiri nelle partite al meglio dei cinque set, visto che molte delle fatalità del primo turno degli US Open 2015 sarebbero sopravvissute a una partita al meglio dei tre set.

I ritiri negli Slam femminili

Nella maggior parte delle stagioni, la frequenza di ritiri al primo turno degli Slam femminili è a malapena la metà di quella in tornei non Slam del circuito.

Negli ultimi dieci anni, poco più dell’1.2% delle giocatrici nel tabellone principale di uno Slam ha abbandonato prematuramente una partita di primo turno. La stessa frequenza per i turni successivi è dell’1.1%, mentre quella nei primi turni di tornei non Slam del circuito è del 2.26%. Diatchenko è stata la quinta giocatrice a ritirarsi in un primo turno Slam quest’anno, per un totale quasi identico alla media di 1.2% data da sei ritiri (non ci sono stati altri ritiri al primo turno dopo quello di Diatchenko nel 2015, n.d.t.)

Un aneddoto, seppur fastidioso, non rappresenta una tendenza e il fatto che sia avvenuto in una partita di cartello non dovrebbe fargli assumere più importanza del valore associato al singolo elemento di un campione di dati. Anche di fronte al lauto compenso di una sconfitta al primo turno di uno Slam, i giocatori non si presentano al meglio della condizione più spesso di quanto non facciano durante il resto della stagione.

The Unalarming Rate of Grand Slam Retirements

Una statistica emozionale e la sua applicazione al singolare maschile degli US Open 2017

di Stephanie Kovalchik // OnTheT

Pubblicato il 3 novembre 2017 – Traduzione di Edoardo Salvati

Le World Series 2017 della Major League Baseball hanno regalato agli appassionati un finale di campionato entusiasmante, ponendosi come riferimento per valutare il grado di eccitazione che un evento sportivo può trasmettere. In questo articolo, si analizza una statistica emozionale per il tennis e la si utilizza come parametro per stabilire una classifica tra le partite del singolare maschile degli US Open 2017.

Una statistica dalle World Series di baseball

Gli Houston Astros hanno vinto il loro primo campionato di baseball battendo i Los Angeles Dodgers in sette partite, in quella che probabilmente rimarrà a lungo una delle serie più incredibili. Ancor prima che la serie finisse, gli esperti di sabermetrica pronosticavano un livello emozionale mai raggiunto in precedenza. Utilizzando un indice chiamato probabilità aggiunta di vittoria del campionato (championship Win Probability Added o cWPA), due delle prime cinque partite erano già considerate tra le prime 20 più eccitanti di sempre.

La cWPA si basa sulla variazione della probabilità di una squadra di vincere il campionato da un momento di gioco al successivo. Grandi scostamenti nella probabilità di vittoria solitamente indicano un passaggio chiave nella serie, di quelli che possono cambiare l’esito finale, come il punto segnato da Alex Bregman nel decimo parziale di gara 5 che ha mandato Houston a un sola vittoria dal titolo.

Seguendo la serie, la cWPA mi è sembrata un modo interessante per mettere in risalto i momenti più importanti e la generale follia in campo associata alle World Series 2017. Mi ha anche fatto pensare alla possibilità di utilizzare un metodo simile nel tennis.

Variazione della probabilità cumulata

Nel tennis, l’analogo della cWPA è dato dalla variazione della probabilità cumulata (cumulative probability change o CPC). Per ogni punto di una partita, la CPC analizza la variazione della probabilità di vittoria del giocatore favorito, sommandone i valori assoluti per ottenere la grandezza complessiva degli “alti e bassi” di una partita.

Da un punto di vista matematico, se una partita è composta da n punti giocati e la probabilità di vittoria del giocatore favorito è Wi, dove i è l’iesimo punto, la CPC è data dalla seguente formula:

In una partita in cui è il giocatore più forte ad andare avanti nel punteggio senza mai subire rimonta, variazioni nella probabilità di vittoria saranno contenute e relativamente pochi i punti giocati, con una bassa CPC complessiva. Se però aumenta il numero dei punti, per situazioni di tiebreak o per game prolungati ai vantaggi, anche la CPC sarà più alta.

Attraverso la CPC possiamo quindi avere un’idea del valore emozionale di una partita. A parità di altre condizioni, è più probabile che una partita con una CPC alta catturi l’attenzione degli spettatori più di una partita con una CPC bassa.

Anche Jeff Sackmann di TennisAbstract ha introdotto una statistica per la misurazione dell’entusiasmo di una partita, l’indice emozionale, che è simile alla CPC ma che viene determinata dalla probabilità media di vittoria, soffermandosi cioè sull’equilibrio complessivo della partita.

Una classifica emozionale degli US Open 2017

Per avere un esempio concreto, vediamo come si comporta la CPC con le partite degli US Open 2017. Per la probabilità di vittoria punto per punto ho utilizzato una metodologia predittiva che si modifica durante la partita, partendo dalla valutazione Elo di ciascun giocatore prima della partita e aggiornando il suo predominio atteso in funzione del rendimento ottenuto al servizio fino al punto in questione. Questo significa che vengono considerate sia la qualità del giocatore che l’andamento del punteggio, così che due partite che raggiungono il medesimo punteggio non necessariamente possano restituire la stessa previsione di vittoria.

Il grafico dell’immagine 1 riporta la CPC (l’indice emozionale) sull’asse delle ordinate rispetto ai punti totali giocati indicati sull’asse delle ascisse (nella versione originale, è possibile visualizzare i singoli valori puntando il mouse sul grafico, n.d.t.). Si evidenzia chiaramente una correlazione positiva, con partite più lunghe che tendono ad avere una CPC più alta. È ragionevole che sia così visto che una partita lunga necessariamente è più equilibrata, come nel caso dell’epico primo turno tra Denis Istomin e Albert Ramos.

IMMAGINE 1 – Indice emozionale per le partite di singolare maschile degli US Open 2017

Variazioni significative anche con numero di punti simile

È interessante notare come possa esserci una variazione anche significativa tra le CPC di partite con un numero simile di punti giocati. Prendiamo ad esempio due delle partite di Leonardo Mayer. La vittoria in quattro set al secondo turno contro Yuichi Sugita ha richiesto 258 punti con una CPC di 9.7. Nel turno successivo, la partita contro Rafael Nadal è durata sempre quattro set con 260 punti e una CPC di 5.5.

Come mai questa differenza? Le due partite sono iniziate in modo analogo, con la vittoria del primo set al tiebreak da parte del giocatore che ha poi perso la partita. La CPC della partita contro Nadal è stata quasi la metà di quella contro Sugita perché Nadal ha dominato nei tre rimanenti set e perché aveva un vantaggio enorme prima dell’inizio della partita, vale a dire che la sua probabilità di vittoria è rimasta molto alta anche dopo aver perso il primo set. La partita contro Sugita invece ha lasciato l’esito finale più a lungo in sospeso.

Considerare anche la bravura del giocatore

Non possiamo definire la CPC una misura emozionale senza aver valutato anche la bravura dei giocatori. Ipotizziamo di avere due partite con identico andamento punto per punto ma con una coppia di giocatori medi da una parte e Roger Federer e Nadal dall’altra. La maggior parte degli appassionati certamente ritiene la seconda più emozionante, aspetto che suggerisce che la bravura complessiva dei giocatori incide sull’interpretazione della CPC.

Nel grafico dell’immagine 2, ho provato a includere la bravura prendendo la somma della valutazione Elo specifica per il cemento di ciascun giocatore all’inizio del torneo. Mettendo a confronto la CPC con questa misura della bravura, la zona del grafico più interessante diventa il quadrante superiore di destra. È qui infatti che si posizionano le partite con una CPC e un livello di talento più alti della media.

IMMAGINE 2 – Indice emozionale rispetto alla bravura dei giocatori per le partite di singolare maschile degli US Open 2017

È curioso come due delle partite che più hanno fatto discutere in cui ha giocato Juan Martin Del Potro siano rappresentate in quest’area, la maratona in cinque set contro Dominic Thiem, che ha la CPC più alta tra le due, e la vittoria in quattro set contro Federer. È però la partita da 355 punti tra Jack Sock e Jordan Thompson a ottenere la CPC maggiore del quadrante a più alta bravura.

Non sono solo gli statistici del baseball a divertirsi con la probabilità di vittoria, anche il tennis può usare indici come la CPC per contribuire con una nuova visuale al dibattito sulle partite più emozionanti.

Il codice e i dati dell’analisi sono disponibili qui.

A Stat for Excitement and What It Reveals About the Best Men’s Matches at the 2017 US Open

Un po’ di ironia con il rapporto nei punti al servizio

di Jeff Sackmann // TennisAbstract

Pubblicato il 14 settembre 2017 – Traduzione di Edoardo Salvati

Nella vittoria a senso unico della finale degli US Open 2017 contro Kevin Anderson, Rafael Nadal non ha dovuto affrontare una sola palla break. Anderson non è nemmeno riuscito ad arrivare a molte situazioni di parità sul servizio di Nadal il quale, invece, ha costantemente messo pressione al suo avversario nei game alla risposta.

Questo ha determinato un rapporto inusuale: Anderson ha dovuto giocare molti più punti al servizio di quanto abbia fatto Nadal, nonostante entrambi abbiano giocato al servizio lo stesso numero di game. Nadal ha servito per 72 volte contro le 108 di Anderson, con un rapporto di 2/3 o, arrotondando, 0.67. Nel mio ultimo podcast, ho ipotizzato che questo rapporto nei punti al servizio è un comodo strumento per individuare il vincitore: se un giocatore supera i suoi game al servizio molto più velocemente dell’altro, probabilmente è perché, a differenza dell’avversario, sta tenendo facilmente il servizio.

Di solito è un valore intorno allo 0.96

Non è la migliore ipotesi che abbia mai formulato. È vera, ma non di un margine dirompente. In media, in una partita del circuito maschile il rapporto tra i punti giocati al servizio dal vincitore e i punti giocati al servizio dallo sconfitto è 0.96, che vorrebbe dire che Nadal ha servito 88 volte contro le 92 di Anderson. Il vincitore serve meno punti al servizio nel 57% delle partite. Con questo, potremmo aver trovato la prossima Chiave del Match di IBM!

Invece di scoprire una modalità di rappresentazione del successo effettivamente utile nella più basilare delle statistiche relative a una partita, siamo incappati nell’ennesimo risultato da aggiungere all’elenco delle imprese estreme di Nadal.

Delle circa 13.000 partite completate nei tornei Slam dal 1991, solo 147 vincitori – a malapena l’1% – hanno avuto un rapporto nei punti al servizio inferiore a 0.67. Delle 106 finali di cui sono disponibili dati, il valore di Nadal nella finale degli US Open 2017 è il più basso in assoluto. Ha battuto di poco lo 0.68 ottenuto da Federer nella finale degli Australian Open 2017 contro Fernando Gonzalez.

Una statistica su una stranezza che comunica poco

Si scopre inoltre che il rapporto nei punti al servizio è più da imputare al caso che altro, per Nadal quanto complessivamente per gli altri giocatori. In otto delle sue sedici vittorie negli Slam il rapporto è stato inferiore a 1.0, uguale a 1.0 in una e superiore a 1.0 nelle rimanenti sette. La sua media è un anonimo 0.98.

Ci siamo quindi: in una sola settimana, abbiamo osservato una stranezza, elaborato una statistica che la catturasse, e concluso che non comunica granché. E poi si parla di statistiche nel tennis!

Fun With Service Point Ratios

Il tabellone degli US Open 2016 demolirebbe quello degli US Open 2017

di Stephanie Kovalchik // OnTheT

Pubblicato il 2 settembre 2017 – Traduzione di Edoardo Salvati

Si è dibattuto molto della mancanza di qualità nel tabellone del singolare maschile degli US Open 2017. Quale occasione migliore quindi per verificare la validità di questo assunto se non quella di far scontrare direttamente il tabellone dell’edizione 2017 con quello dell’edizione 2016?

All’inizio del torneo, il sorteggio del tabellone ha sollevato un coro di mugugni. Non solo tre dei primi 10 del mondo si erano ritirati prima ancora del sorteggio, ma Rafael Nadal e Roger Federer sono finiti entrambi nella parte alta. La situazione è peggiorata quando Andy Murray si è dovuto ritirare – a sorteggio avvenuto – per un problema all’anca, così da avere solo sei dei primi 10, il minimo storico nell’era Open per l’ultimo Slam della stagione.

È cambiato molto in un anno

Tornando indietro di un anno ci si rende conto di quanto il circuito sia cambiato. All’inizio degli US Open 2016, Novak Djokovic era il numero 1 con un’intimidatoria valutazione Elo su tutte le superfici di 2946, appena sotto il suo massimo in carriera. Nadal era la testa di serie numero 4 con un Elo di 2231. Nonostante l’assenza di Federer non passasse inosservata, la qualità del giocatore con la testa di serie più alta per ogni quarto del tabellone ha dato vita a sette turni molto combattuti.

Nel 2017, l’assenza di tre dei primi 5 del mondo ha conferito a Nadal la testa di serie numero 1 con un Elo di 2257, marginalmente superiore alla valutazione che nel 2016 gli aveva garantito la testa di serie numero 4. A seguito del rimescolamento dovuto al ritiro di Murray, Marin Cilic ha preso la testa di serie più alta nel quarto più debole e si è inserito nel tabellone con una valutazione Elo di 2093. Sono solo 50 punti Elo in più della posizione che aveva nel 2016, quando era la testa di serie numero 7.

Squilibrio nello stato di forma dei giocatori e nella distribuzione in tabellone

La differenza di forma tra teste di serie però è solo uno dei motivi scatenanti la discussione intorno al campo partecipanti degli US Open 2017. Anche il disequilibrio del tabellone è stato fonte di disappunto, o a volte addirittura collera. Di fronte alla presenza di un solo giocatore in possesso di un titolo Slam nella parte bassa, alcuni commentatori di tennis hanno affermato che qualsiasi dilettante con spirito combattivo avrebbe potuto raggiungere la semifinale. Certamente non il tipo di sarcasmo da invogliare lo spettatore occasionale a rimanere incollato alla televisione.

Va sottolineato però che la maggior parte delle valutazioni sono basate su opinioni personali o influenzate dall’eventuale presenza di giocatori favoriti, il che induce a chiedersi in che modo si possa trovare una misura oggettiva della qualità (o inadeguatezza) del tabellone degli US Open 2017.

Lo scontro diretto tra tabelloni come misura oggettiva

Un metodo che ritengo essere obiettivo nel paragonare il tabellone dell’edizione in corso a quelli del recente passato è di creare uno scontro diretto tra i giocatori del 2017 e i giocatori degli US Open 2016. Provate a immaginare di avere ogni quarto del tabellone 2017 in grado di giocare contro il corrispondente quarto del tabellone 2016 in un torneo a 64 giocatori. Esiste un modo migliore per definire il livello di bravura del momento rispetto a quello di un anno fa? Non credo.

È evidente che non possiamo spostare indietro le lancette dell’orologio e far giocare un torneo di quel tipo nella realtà (servirebbe dissociarsi dai vincoli della logica come è necessario fare per seguire, ad esempio, la serie tv Il Trono di Spade). Possiamo però affidarci a ben collaudati metodi predittivi per simulare una sfida all’ultimo giocatore tra il 2017 e il 2016.

La metodologia

Un breve spiegazione del procedimento utilizzato per generare ciascun tabellone della sfida. Per prima cosa, ho associato le prime quattro teste di serie del 2017 alle corrispondenti teste di serie del 2016 sulla base delle valutazioni Elo precedenti all’inizio del torneo. Ad esempio, il quarto di Federer nel 2017 si è scontrato con quello di Djokovic nel 2016 perché sono i due giocatori ad aver avuto la valutazione Elo più alta nell’anno di riferimento.

Una volta che ogni quarto del 2017 e del 2016 è stato associato, ho messo insieme i 64 giocatori e li ho ordinati secondo le regole previste per un normale torneo, utilizzando sempre le valutazioni Elo per determinare le teste di serie. Poi ho simulato l’esito di ciascun turno in funzione della percentuale di vittoria attesa determinata dalla valutazione Elo dei giocatori protagonisti dello scontro diretto. Ho ripetuto i passaggi per 10.000 volte e verificato quanto spesso ogni giocatore è diventato campione del torneo.

Visto che siamo interessati a valutare le differenze di qualità del tabellone di ogni torneo al suo inizio, ho ignorato i risultati della prima settimana degli US Open 2017 e inserito i giocatori che hanno raggiunto la seconda settimana come se iniziassero il torneo in quel momento.

Il quarto di finale di Nadal

In un torneo con Nadal 2017 e Murray 2016, Murray sarebbe comodamente in cima all’elenco dei vincitori più probabili, come mostrato nell’immagine 1. Anzi, Murray 2016 avrebbe più del doppio delle probabilità di vincere il titolo rispetto a Nadal 2017. Nishikori 2016 avrebbe la stessa probabilità statistica di vincere il titolo di Nadal 2017.

IMMAGINE 1 – Il quarto di finale di Nadal 2017 contro il quarto di finale di Murray 2016

Sebbene il livello complessivo del campo partecipanti degli US Open 2017 non si sia avvicinato nemmeno al livello di Murray nel 2016, troviamo però cinque giocatori nel quarto di finale del 2017 tra i dieci più forti delle simulazioni. Si può fare leva su questo per concludere che il quarto di finale del 2017 era di qualità.

Il quarto di finale di Federer

Per quanto riguarda questa sezione di tabellone, se Djokovic 2016 avesse giocato al suo livello atteso avrebbe demolito il campo partecipanti del 2017. Una probabilità maggiore del 60% di vincere un torneo che comprende giocatori indicati da molti come possibili vincitori degli US Open 2017 sottolinea la vertiginosa altitudine di forma da cui purtroppo Djokovic si è lanciato in caduta libera in così poco tempo.

IMMAGINE 2 – Il quarto di finale di Federer 2017 contro il quarto di finale di Djokovic 2016

Per gli altri giocatori che non siano Djokovic e Federer, la probabilità si è ridotta considerevolmente assestandosi su valori analoghi, a indicare che lo stato di forma delle non teste di serie di questo quarto era abbastanza simile tra il 2016 e il 2017.

Il quarto di finale di Zverev

Nel confronto tra il quarto di finale di Alexander Zverev 2017 e quello di Nadal 2016, la prima testa di serie del 2016 è emersa come il giocatore più forte. A differenza degli altri quarti del 2017, questo è il primo in cui si è osservata una netta separazione di bravura tra il resto del campo partecipanti 2016 e 2017. Il terzo quarto infatti non solo ha determinato un giocatore del 2016 come il più probabile vincitore di uno torneo tra 2016 e 2017, ma quattro dei cinque vincitori più probabili sono arrivati dall’edizione 2016.

IMMAGINE 3 – Il quarto di finale di Zverev 2017 contro il quarto di finale di Nadal 2016

Il quarto di finale di Cilic

Il predominio del tabellone 2016 è stato ancora più pronunciato nella sezione di Cilic. I primi tre vincitori di un ipotetico scontro quarto contro quarto sono stati tutti giocatori del 2016, con Cilic, la prima testa di serie del quarto, in possesso solamente della quarta probabilità di vincere il torneo, a malapena migliore di quella di Nick Kyrgios 2016.

IMMAGINE 4 – Il quarto di finale di Cilic 2017 contro il quarto di finale di Wawrinka 2016

Questo esperimento ha confermato che la qualità del tabellone di singolare maschile 2017 è offuscata da quella del tabellone del 2016. Fornisce inoltre credito alle lamentele relative allo squilibrio della metà bassa del tabellone 2017.

Delusione ma spazio per i non favoriti

Di fronte a numeri come questi, si fa fatica a non sentirsi delusi. Se si considera inoltre che molti dei giocatori del 2017 statisticamente più forti hanno già perso (Cilic, Zverev, etc) o sembrano sul punto di uscire (Federer, che perderà poi nei quarti di finale da Juan Martin Del Potro, n.d.t.) si è già pronti a considerare il tabellone del singolare maschile degli US Open 2017 senza speranza. Si tratta però del tipo di confusione che crea le giuste condizioni affinché un perfetto sconosciuto venga alla ribalta come ha fatto Boris Becker a Wimbledon 1985, Goran Ivanisevic a Wimbledon 2001 o Mats Wilander al Roland Garros 1982.

La possibilità di assistere a un’altra cavalcata di un giocatore sfavorito che emerga trionfante nella seconda settimana è un motivo più che valido per continuare a seguire gli US Open 2017.

Il codice e i dati dell’analisi sono disponibili qui.

The 2016 US Open Men Would Smash 2017

Quale era la probabilità di avere quattro giocatrici americane nelle semifinali degli US Open 2017?

di Stephanie Kovalchik // OnTheT

Pubblicato l’8 settembre 2017 – Traduzione di Edoardo Salvati

Per la prima volta dopo 36 anni, le semifinali del singolare femminile degli US Open 2017 saranno un affare solo americano. Quale era la probabilità di un esito di portata storica come questo?

Due semifinali tutte americane

Se in molti si sono lamentati della monotonia degli incontri di singolare maschile, il tabellone femminile non ha invece disatteso. Tra i momenti più eccitanti, almeno per i tifosi americani, c’è senza dubbio la trasformazione da parte di Madison Keys del secondo match point nell’ultimo dei quarti di finale femminili, che ha assicurato appunto due semifinali tra giocatrici solo degli Stati Uniti, cioè – oltre a Keys – Venus Williams, Sloane Stephens e CoCo Vandeweghe.

Per la prima volta dal 1981 ci saranno solo bandiere americane accanto al nome delle semifinaliste. E con Williams l’unica ad aver già vinto un titolo dello Slam, c’è una buona probabilità di vedere un nuovo nome nell’elenco delle campionesse degli US Open.

Raggiungere questo traguardo a 36 anni di distanza non è frutto del caso. Per poter battere le avversarie di cinque turni di partite in un tabellone a eliminazione diretta con 128 partecipanti, è richiesta la presenza di forti giocatrici americane in ciascun quarto. Sembra quindi che trovare talento americano a ogni livello sia stata la condizione necessaria.

23 giocatrici americane nel tabellone principale

Ventitré giocatrici americane erano iscritte al tabellone principale degli US Open 2017. Nel tennis, uno sport di provenienza sempre più globale, si tratta di una fetta significativa per una singola nazione in uno Slam, anche se questo vale solo a partire dal nuovo millennio.

Infatti, come mostra l’immagine 1, era abbastanza frequente negli anni ’80 avere almeno il 50% del campo partecipanti rappresentato da giocatrici degli Stati Uniti. Da quel momento però la tendenza è precipitata. In molti anni dell’ultima decade, il numero di giocatrici americane nel singolare femminile non è mai stato superiore a 20.

IMMAGINE 1 – Andamento della presenza di giocatrici americane agli US Open

Rispetto al 1981, quando la composizione del tabellone era pesantemente sbilanciata a favore degli Stati Uniti, avere oggi semifinali di sole giocatrici americane è un risultato notevole. Le 23 giocatrici sono poca cosa se paragonate alle 78 del 1981, ma è importante sottolineare che si è di fronte a un valore massimo nella tendenza di crescita delle americane agli US Open dal 2010. È un’altra indicazione della profondità del movimento femminile americano.

Una probabilità su quattromila

Il tabellone femminile degli US Open è di certo speciale per molti motivi. Ma lo è anche da un punto di vista statistico? Quanto sono stati fortunati i tifosi locali a ricevere due semifinali tra giocatrici americane?

Possiamo farci un’idea della probabilità di accadimento di un anno record come gli US Open 2017 simulando gli esiti più probabili del tabellone femminile attraverso le valutazioni Elo delle giocatrici. Su 100.000 simulazioni, due semifinali tutte americane si sono verificate solo ventisette volte, in altre parole con una probabilità su quattromila. E in quattordici delle ventisette volte, quindi poco più del 50%, le semifinaliste sono state esattamente le quattro giocatrici protagoniste.

I tifosi americani di tennis che si godranno lo spettacolo del fine settimana conclusivo agli US Open hanno due ragioni in più per sentirsi fortunati.

Il codice e i dati dell’analisi sono disponibili qui.

What Were the Odds of an All-American Women’s SF at the US Open?

Quantificare i tabelloni “passeggiata”, o la volta in cui Nadal finalmente ha avuto fortuna

di Jeff Sackmann // TennisAbstract

Pubblicato l’8 settembre 2017 – Traduzione di Edoardo Salvati

Aggiornamento

Rispetto alla prima versione di questo articolo, ho modificato la definizione di “difficoltà di percorso” in “facilità di percorso”, per meglio riflettere il senso della statistica che ho introdotto.

Rafael Nadal e Kevin Anderson hanno raggiunto la finale degli US Open 2017, quindi siamo in grado di determinare con precisione il valore della facilità di percorso per entrambi, a seconda di chi vinca la finale. Per Nadal il numero rimane identico a 51.4% e, dovesse vincere, la sua media in carriera per i 16 Slam aumenterebbe a circa il 15%. La facilità di percorso fino al titolo per Anderson è “solo” di 41.3% (rispetto al 47.1% calcolato non sapendo i nomi dei finalisti), che varrebbe il nono posto nel terzultimo elenco dell’articolo e al secondo posto, anche se di poco, tra i percorsi più facili degli ultimi trenta US Open.

Molti commenti sono stati espressi sulla debolezza di alcune sezioni del tabellone del singolare maschile degli US Open 2017, che sono sembrate tenute insieme con lo scotch. Diversi tra i giocatori più forti non hanno partecipato per infortunio e molti altri sono usciti ai primi turni. Pablo Carreno Busta ha raggiunto i quarti di finale battendo quattro qualificati ed è plausibile che Nadal possa vincere il torneo senza aver sconfitto un solo giocatore dei primi 20 del mondo.

Nulla di questo però dipende dai giocatori stessi, il cui compito è affrontare solo chi si trova dall’altra parte della rete. Non sapremo mai come si sarebbero comportati con un gruppo più agguerrito di avversari. La debolezza del tabellone però potrebbe influenzare il nostro ricordo del torneo. Se lasciamo che sia la qualità del campo partecipanti a rimanere impressa nella mente, dovremmo allora almeno tentare di mettere a confronto i giocatori del torneo 2017 con quelli di passate edizioni degli Slam.

Come misurare i percorsi di un tabellone

Ci sono diversi modi per quantificare la qualità di un tabellone. Visto che siamo interessati allo specifico insieme di avversari affrontati dai giocatori rimasti nel torneo, abbiamo bisogno di una statistica che concentri l’attenzione su di loro. Non è rilevante ad esempio che Nick Kyrgios fosse in tabellone, dato che nessuno dei semifinalisti ha dovuto giocarci contro. Invece della difficoltà del tabellone quindi, ci interessa quella che chiamerò “facilità di percorso”. È un concetto piuttosto immediato: quanto è difficile battere lo specifico insieme di avversari che Nadal (per fare un nome) ha dovuto affrontare?

Per arrivare a un numero, ci servono alcuni fattori: le valutazioni Elo ponderate per superficie di ciascuno degli avversari del giocatore considerato, insieme a una sorta di “Elo di riferimento” per un semifinalista medio di Slam (o finalista, o vincitore). Per stabilire la facilità di percorso di Nadal fino a questo momento, non vogliamo utilizzare la valutazione Elo di Nadal, perché se così facessimo, lo stesso identico percorso sembrerebbe più semplice o più difficile in funzione della qualità del giocatore che ha dovuto affrontarlo.

(L’esatto valore dell’“Elo di riferimento” non è così importante, ma per chi fosse interessato ai numeri, ho trovato la valutazione Elo media per ogni semifinalista, finalista e vincitore di tutti gli Slam dal 1988 su ciascuna delle tre superfici. Sul cemento, quei numeri sono rispettivamente 2145, 2198 e 2233. Per misurare la facilità di percorso fino alla semifinale, ho utilizzato il primo di quei numeri, per la facilità di percorso fino alla vittoria, ho utilizzato l’ultimo.)

Il percorso più difficile è di Del Potro

Per misurare la facilità di percorso dobbiamo rispondere a questa domanda: qual è la probabilità che (ad esempio) il semifinalista medio di Slam batta questo particolare insieme di giocatori? Nel caso di Nadal, deve ancora affrontare un giocatore con una valutazione Elo ponderata per il cemento superiore a 1900, e il tipico semifinalista con valutazione 2145 batterebbe i giocatori affrontati da Nadal il 71.5% delle volte. Si tratta di un percorso leggermente più facile di quello che Anderson ha dovuto fare per arrivare in semifinale, ma leggermente più difficile di quello di Carreno Busta. Juan Martin Del Potro invece si trova in un pianeta tutto suo. La tabella riepiloga i numeri relativi alla facilità di percorso dei quattro semifinalisti, mostrando quanto sia stato difficile (o facile) arrivare in semifinale, quanto lo sia per la finale e poi per il titolo.

Semifinalista   Percorso: SF      F       Vittoria  
Nadal                     71.5%   49.7%   51.4%  
Del Potro                 9.1%    7.5%    10.0%  
Anderson                  69.1%   68.9%   47.1%  
Carreno Busta             74.3%   71.2%   48.4%

(Non sapendo ancora, al momento della stesura, il percorso di ogni giocatore fino alla vittoria finale, ho fatto una media delle valutazioni Elo dei potenziali avversari. Anderson e Carreno Busta sono molto simili, quindi per Nadal e Del Potro, i loro potenziali avversari, non fa molta differenza.)

Stranezze

C’è una stranezza che emerge da questa statistica e che forse avete notato: nel caso di Nadal e Del Potro, la difficoltà di raggiungere la finale è maggiore di quella per la vittoria del torneo! Naturalmente non ha senso che sia così, ma i numeri si comportano in questo modo per via dell’“Elo di riferimento” che ho utilizzato. Il vincitore medio di Slam è più forte del finalista medio di Slam, quindi la tabella di fatto sottolinea come sia più facile per il vincitore medio di Slam battere i sette avversari di Nadal di quanto non sia facile per il finalista medio di Slam sconfiggere i primi sei avversari di Nadal. È una statistica più efficace nel raffronto tra percorsi passati dello stesso livello, quindi vittoria finale rispetto a vittoria finale, semifinale verso semifinale, ed è quello che farò nel resto dell’articolo.

Eccezioni e stranezze a parte, colpisce quanto più facili siano stati gli altri tre percorsi fino alla semifinale rispetto a quello di Del Potro, che si è rivelato molto più arduo. Anche se scontiamo la difficoltà di battere Roger Federer – che Elo ritiene il miglior giocatore sul cemento al momento in attività pur non essendo a conoscenza dei suoi problemi fisici – il percorso di Del Potro è stato decisamente diverso da quello di Nadal e dei possibili finalisti.

Le “passeggiate” in contesto

Facilità di percorso fino alla semifinale di almeno il 69% sono estremamente rare. Anzi, i percorsi di Anderson, Carreno Busta e Nadal sono tra i dieci più facili degli ultimi trent’anni! La tabella elenca i dieci più facili percorsi precedenti a questi.

Anno  Slam              Semifinalista   Difficoltà percorso  
1989  Australian Open   Muster          84.1%  
1989  Australian Open   Mecir           74.2%  
1990  Australian Open   Lendl           73.8%  
2006  Roland Garros     Ljubicic        73.7%  
1988  Australian Open   Lendl           72.2%  
1988  Australian Open   Cash            70.1%  
2004  Australian Open   Ferrero         69.2%  
1996  US Open           Chang           68.8%  
1990  Roland Garros     Gomez           68.4%  
1996  Australian Open   Chang           66.2%

Nell’ultima decade, il più facile percorso fino alla semifinale è stato quello di Stanislas Wawrinka al Roland Garros 2016, con una probabilità di vittoria del 59.8%.

Il percorso di Del Potro fino alla semifinale non è così estremo, ma è decisamente difficile se lo si osserva in riferimento al passato. Dei circa 500 semifinalisti dal 1988, solo quindici hanno avuto un percorso più facile del suo 9.1%. La tabella elenca i dieci percorsi più facili.

Anno  Slam              Semifinalista   Difficoltà percorso  
2009  Roland Garros     Soderling       1.6%  
1988  Roland Garros     Svensson        1.9%  
2017  Wimbledon         Berdych         3.7%  
1996  Wimbledon         Krajicek        6.4%  
2011  Wimbledon         Tsonga          6.6%  
2012  US Open           Berdych         6.8%  
2017  Roland Garros     Thiem           6.9%  
2014  Australian Open   Wawrinka        7.0%  
1989  Roland Garros     Chang           7.1%  
2017  Wimbledon         Querrey         7.5%

Un’anteprima degli annali

Nel lungo periodo, saremo molto più interessati a sapere come il vincitore degli US Open 2017 abbia vinto il titolo di quanto sia riuscito a superare i primi cinque turni. Come abbiamo visto, tre dei quattro semifinalisti hanno avuto una facilità di percorso del 50% per la vittoria del titolo, vale a dire che un tipico vincitore di Slam avrebbe avuto una possibilità di circa 50/50 di battere questo specifico gruppo di sette avversari.

Nessun vincitore di Slam del recente passato l’ha avuta così facile. Il percorso di Nadal sarebbe il primo dei più facili negli ultimi trent’anni, mentre quello di Carreno Busta o di Anderson arriverebbero tra i primi cinque (se così dovesse essere, i valori precisi dipenderanno da chi affrontano in finale). La tabella riepiloga l’elenco dei giocatori che i tre semifinalisti hanno la possibilità di alterare.

Anno  Slam              Vincitore    Facilità percorso  
2002  Australian Open   Johansson    48.1%  
2001  Australian Open   Agassi       47.6%  
1999  Roland Garros     Agassi       45.6%  
2000  Wimbledon         Sampras      45.3%  
2006  Australian Open   Federer      44.5%  
1997  Australian Open   Sampras      44.4%  
2003  Australian Open   Agassi       43.9%  
1999  US Open           Agassi       41.5%  
2002  Wimbledon         Hewitt       39.9%  
1998  Wimbledon         Sampras      39.1%

Agli Australian Open 2006, Federer ha beneficiato della fortuna per una facilità di percorso simile a quella di Nadal agli US Open 2017. Il suo titolo a Wimbledon 2003 per poco non si inseriva nei primi dieci. In confronto, Novak Djokovic non ha mai vinto uno Slam senza aver dovuto compiere un percorso di facilità superiore a 18.7%, quindi più difficile di quello di più della metà dei vincitori di Slam.

Anche Nadal ha dovuto sudare (non solo figurativamente) per collezionare i 15 Slam del suo palmarès. La tabella elenca i primi dieci più difficili percorsi fino alla vittoria finale.

Anno  Slam              Vincitore    Facilità percorso  
2014  Australian Open   Wawrinka     2.2%  
2015  Roland Garros     Wawrinka     3.1%  
2016  Us Open           Wawrinka     3.2%  
2013  Roland Garros     Nadal        4.4%  
2014  Roland Garros     Nadal        4.7%  
1989  Roland Garros     Chang        5.0%  
2012  Roland Garros     Nadal        5.2%  
2016  Australian Open   Djokovic     5.4%  
2009  US Open           Del Potro    5.9%  
1990  Wimbledon         Edberg       6.2%

Come ho lasciato intendere nel titolo di questo articolo, se Nadal quest’anno, per il momento, è stato fortunato a New York, non è sempre andata così. Il suo nome compare tre volte in questa lista, avendo dovuto affrontare avversari più forti di qualsiasi altro vincitore Slam tranne Stanislas Wawrinka, il Davide che sconfigge i Golia.

Djokovic ha storicamente il percorso più impervio, ma anche Nadal ha dovuto darsi da fare

In media, i percorsi fino alla vittoria di Slam di Nadal non sono stati così impervi come quelli di Djokovic, ma rispetto a quelli di molti altri grandi dell’ultima decade, Nadal ha dovuto darsi parecchio da fare. La tabella riepiloga la difficoltà di percorso media per i giocatori con almeno tre Slam, dal 1988.

Giocatore  Slam da 1988  Facilità percorso media  
Wawrinka   3             2.8%  
Djokovic   12            11.3%  
Nadal      15            13.6%  
Edberg     4             14.6%  
Murray     3             18.8%  
Becker     4             18.8%  
Wilander   3             19.8%  
Kuerten    3             22.0%  
Federer    19            23.5%  
Courier    4             26.4%  
Sampras    14            28.9%  
Agassi     8             32.3%

Dovesse aggiungere anche gli US Open 2017 alla sua lista, la facilità di percorso medio di Nadal subirebbe un calo, ma comunque scenderebbe solo di un posto, dietro a Stefan Edberg. Dopo più di dieci anni di battaglie con giocatori tra i più forti di sempre negli ultimi turni di uno Slam, è onesto affermare che Nadal si è meritato questa passeggiata.

Quantifying Cakewalks, or The Time Rafa Finally Got Lucky

Per delle Chiavi del Match più semplici ed efficaci – Gemme degli US Open

di Jeff Sackmann // TennisAbstract

Pubblicato il 10 settembre 2013 – Traduzione di Edoardo Salvati

L’ottavo articolo della serie Gemme degli US Open.

Se avete seguito gli US Open 2013 o visitato il sito internet in qualsiasi momento delle ultime due settimane, non potete non aver notato la presenza di IBM. Loghi e inserzioni pubblicitarie erano ovunque, e anche altre fonti informative di solito affidabili non si sono tirate certamente indietro nel sottolineare le capacità statistiche di ultima generazione in possesso della società americana.

Analisi non proprio predittive

Particolarmente difficili da evitare sono state le “Chiavi del Match” (“Keys to the Match”) di IBM, tre indicatori a partita per giocatore. Il nome e la natura delle “chiavi” richiamano con decisione un certo potere predittivo: IBM definisce l’offerta statistica di tennis come “analisi predittiva” e non perde occasione per elogiare il database di 41 milioni di dati punto per punto di cui è proprietaria.

Eppure, come ha scritto Carl Bialik sul Wall Street Journal, non sono analisi così predittive.

Capita spesso di accorgersi che lo sconfitto ha raggiunto più obiettivi espressi dalle “chiavi” rispetto al vincitore, come è stato per la semifinale tra Novak Djokovic e Stanislas Wawrinka. Anche quando il vincitore ha catturato più chiavi, alcuni degli indicatori sono parsi quasi del tutto irrilevanti, come “giocare in media meno di 6.5 punti per game al servizio”, la chiave che Nadal non è riuscito a rispettare nella vittoria in finale.

Stando a un rappresentante di IBM, il gruppo di persone che lavora al progetto è alla ricerca di statistiche “inusuali”, e direi che ci sono riusciti. Il tennis però è un gioco semplice e, a meno di non spacchettare l’analisi ed evidenziare aspetti che nessun altro ha mai approfondito, ci sono solo alcune statistiche che contano davvero. Nella ricerca dell’inusuale, IBM ha lasciato indietro il predittivo.

IBM contro le “chiavi generiche”

IBM ha offerto le Chiavi del Match per 86 delle 127 partite di singolare maschile degli US Open 2013. In 20 di quelle partite, lo sconfitto ha raggiunto lo stesso numero o più chiavi di quelle raggiunte dal vincitore. In media, il vincitore di ciascuna partita ha raggiunto 1.13 chiavi in più dello sconfitto.

Si tratta della migliore prestazione di IBM per la stagione in corso. A Wimbledon 2015, i vincitori hanno raggiunto in media 1.02 chiavi in più degli sconfitti e, in 24 partite, lo sconfitto ha raggiunto lo stesso numero o più chiavi del vincitore. Al Roland Garros 2015, i numeri sono stati 0.98 e 21 partite, e agli Australian Open 2015 1.08 e 21 partite.

In assenza di parametri di riferimento, è difficile giudicare sulla bontà di questi numeri. Come ha fatto notare Bialik: “Forse il tennis è così complicato da analizzare che queste chiavi sono più efficaci di quanto chiunque altro potrebbe fare senza la montagna di dati di IBM e complessi modelli computerizzati”.

Non è così difficile. Anzi, i milioni di dati punto per punto e la ventina di statistiche “inusuali” di IBM sono la complicazione di ciò che potrebbe essere estremamente semplice.

Percentuale di punti vinti sulla prima e sulla seconda

Ho messo alla prova alcune statistiche di base per verificare se potessero esserci degli indicatori più diretti in grado di restituire risultati migliori di quelli di IBM (Bialik le definisce “chiavi di Sackmann”, ma le chiamerò “chiavi generiche”). È straordinaria la facilità con cui ho creato un gruppo di chiavi generiche che pareggiassero i numeri di IBM o facessero leggermente meglio.

Non stupisce che due delle statistiche più efficaci siano la percentuale di punti vinti sulla prima di servizio e sulla seconda di servizio. Ne parlerò in altri articoli, ma queste statistiche – e altre – mostrano sorprendente discontinuità. Vale a dire, esiste un chiaro livello al quale uno o due punti percentuali addizionali fanno una grande differenza per la probabilità di vittoria di un giocatore. Sono dettagli fatti apposta per essere incorporati nelle chiavi.

Percentuale di prime

Per la terza chiave, ho provato con la percentuale di prime di servizio, che non possiede un potere predittivo simile a quello delle due precedenti statistiche, ma il vantaggio di non avere con loro un’evidente correlazione. Un giocatore può avere un’alta percentuale di prime di servizio ma una bassa frequenza di punti vinti con la prima o con la seconda di servizio, e viceversa. E, contrariamente a certa saggezza popolare tennistica, non sembra esserci un livello alto di percentuale di prime di servizio oltre al quale altre prime in campo diventano un fattore negativo. Non è una relazione lineare, ma più prime di servizio rimangono dentro, maggiore è la probabilità di vittoria.

Mettendo tutto insieme, si ottengono tre chiavi generiche:

  • Percentuale di punti vinti sulla prima di servizio superiore al 74%
  • Percentuale di punti vinti sulla seconda di servizio superiore al 52%
  • Percentuale di prime di servizio superiore al 62%.

Sono percentuali che derivano dai risultati degli ultimi anni sul circuito maggiore per tutte le superfici a eccezione della terra battuta. Per semplicità, ho raggruppato l’erba, il cemento e il cemento indoor, anche se tenendole separate si potrebbe arrivare a indicatori leggermente più predittivi.

Nelle 86 partite degli US Open in cui erano disponibili le Chiavi del Match di IBM, le chiavi generiche hanno ottenuto risultati di poco superiori. Utilizzando i miei indicatori – gli stessi tre per ciascun giocatore – lo sconfitto ha raggiunto lo stesso numero o più chiavi del vincitore 16 volte (rispetto alle 20 di IBM) e il vincitore ha raggiunto in media 1.15 chiavi in più dello sconfitto (rispetto alle 1.13 di IBM). Per gli altri Slam, i risultati ottenuti sono simili (con soglie leggermente diverse per la terra battuta del Roland Garros).

Un pianeta più brillante

Non è casuale che la più semplice e più generica impostazione per la definizione di chiavi abbia restituito risultati migliori di quelli dati dall’attenzione di IBM per la complessità e gli aspetti inusuali. Aiuta anche il fatto che le chiavi generiche siano espressione di una conoscenza specializzata (per quanto rudimentale) del campo di applicazione in questione, mentre molte delle Chiavi del Match di IBM, come la velocità media della prima di servizio inferiore a un dato numero di km/h o la durata dei set misurata in minuti, siano invece espressione di ignoranza del campo di applicazione in questione.

Inoltre, commenti dei rappresentanti di IBM suggeriscono che il marketing sia più importante dell’accuratezza. L’articolo di Bialik ha citato le parole “Non è predittivo” di un esponente dell’azienda, nonostante i grandi e colorati cartelloni pubblicitari sparsi in tutto il complesso in cui si giocano gli US Open sostenessero esattamente il contrario. “Coinvolgimento” è il termine che continua a essere ripetuto come un mantra, anche se numeri inusuali che coinvolgono possono non aver nulla a che spartire con l’esito delle partite, e molto del coinvolgimento che ho visto negli appassionati è negativo.

Dopotutto, il vecchio adagio forse ha la sua ragion d’essere: fintantoché pronunciano correttamente il tuo nome, è tutta pubblicità positiva. E non è difficile pronunciare “IBM”.

Chiavi migliori, più consapevolezza

Offuscati dallo sforzo di marketing, è facile perdere di vista il fatto che l’idea delle chiavi di analisi di una partita sia effettivamente valida. I commentatori spesso parlano di raggiungere determinati traguardi, come ad esempio mettere il 70% delle prime. Per quanto ne sappia però, nessuno si è premunito di fare ricerche al riguardo.

Con le chiavi generiche come punto di partenza, potrebbe diventare un percorso molto più interessante. Anche se questi numeri sono dei buoni indicatori di prestazione sul cemento, sono suscettibili di ulteriori sviluppi, principalmente con aggiustamenti specifici per singolo giocatore.

Il 74% dei punti vinti sulla prima di servizio è funzionale con un giocatore alla risposta medio, ma con un giocatore alla risposta più scadente come John Isner? La sua percentuale di punti vinti sulla prima di servizio quest’anno è vicina al 79%, a suggerire che è per lui il numero di riferimento per battere la maggior parte degli avversari. Per altri invece potrebbe essere cruciale una frequenza più alta di prime di servizio. O ancora, le soglie di alcuni giocatori potrebbero subire ampie e nette variazioni in funzione della superficie.

Tornerò sul tema in articoli futuri, scendendo nel dettaglio di queste chiavi generiche e cercando di capire come possano essere migliorate. Fare meglio di IBM è gratificante, ma se l’obiettivo è davvero “un pianeta più brillante”, c’è ancora molta ricerca da portare avanti.

Simpler, Better Keys to the Match