Aggressività incontrollata

di Jeff Sackmann // TennisAbstract

Pubblicato il 27 gennaio 2014 – Traduzione di Edoardo Salvati

Ascoltando una telecronaca di tennis – e se per questo di qualsiasi altro sport – capita prima o poi di sentire nominare la parola “regolarità”. Non serve aspettare a lungo.

Regolarità è sinonimo di virtù, il suo contrario – un rendimento altalenante – è da evitare con cura, o così abbiamo imparato. Di primo acchito, è un ragionamento che fila. La regolarità è un aspetto positivo se associata a chiudere correttamente il movimento sul dritto o al fatto di lavarsi i denti tutti i giorni. Ma, a meno di non essere il più forte giocatore del mondo, la regolarità non basta per vincere i tornei dello Slam.

Vedetela in questo modo: ogni giocatore possiede un livello “medio” a cui è sicuramente in grado di giocare. Se il Rafael Nadal medio gioca sulla terra battuta contro un qualsiasi altro giocatore al suo livello medio, il Nadal medio vince. Se il Richard Gasquet medio gioca contro il livello medio di qualsiasi altro giocatore fuori dai primi 50, il Gasquet medio vince. Per giocatori come Nadal o Gasquet, sono queste le situazioni in cui la regolarità è in effetti un elemento positivo. È indubbio che Nadal abbia la capacità di alzare il suo gioco a vette espressive mai viste in precedenza, ma a che scopo? Vincerebbe 6-1 6-0 invece che 6-3 6-2. L’obiettivo principale di Nadal è quello di evitare passaggi a vuoto che possano costargli la partita.

Continuiamo nell’esempio ma dalla prospettiva dell’avversario di Nadal. Se sei Tomas Berdych e giochi al tuo livello abituale contro Nadal, perderai. A questo ti porta la regolarità: tredici sconfitte consecutive.

Aggressività incontrollata

Giocatori molto offensivi non godono generalmente di ottima reputazione. Tipi come Lukas Rosol o Nikolay Davydenko – sempre orientati a tirare al massimo ogni colpo – collezionano un alto numero di vincenti ed errori non forzati. A volte funziona, spesso no. Quando non funziona, la saggezza popolare tennistica sembra sempre suggerire che questi giocatori debbano tenere a freno la loro aggressività. Devono essere più regolari.

Non è così. Se Rosol smettesse di caricare i suoi colpi in qualsiasi direzione, farebbe meno errori non forzati, ma colpirebbe anche molti meno vincenti. Rimarrebbe intorno alla cinquantesima posizione o, più probabilmente, si aggirerebbe tra i Challenger in attesa di quella prestazione dirompente che uno stile così passivo difficilmente gli consentirebbe di ottenere. Per come stanno le cose, il “tirare a tutta” ha permesso a Rosol di sorprendere Nadal a Wimbledon 2012, oltre a fargli vincere il torneo di Bucarest nel 2013 dopo aver battuto tre giocatori con una classifica più alta.

Anziché mantenere – secondo l’espressione preferita degli opinionisti – un’aggressività controllata, i giocatori raggiungono vittorie a sorpresa di grande portata con un’aggressività incontrollata (sembra in realtà controllata solo perché quel giorno sta funzionando). Mettendo le briglie a un giocatore aggressivo, si potrebbe portarlo a vincere più partite di quante ci si attende che vinca, ma è molto meno probabile che ottenga una vittoria a sorpresa di rilievo.

Il mito della completezza

Nel tennis c’è così tanta varietà – di superficie, di clima, di stile di gioco – e così tanta alternanza – parità/vantaggi, servizio/risposta – da indurre gli opinionisti a sostenere continuamente il concetto di completezza. Andy Murray deve migliorare sulla terra, dicono. Jerzy Janowicz deve migliorare il gioco alla risposta. Monica Niculescu deve imparare a colpire il dritto.

Si ha la tentazione di sostenere questa linea argomentativa perché i giocatori migliori hanno in effetti quel tipo di abilità complessiva. Nadal, Novak Djokovic, Serena Williams e Na Li hanno a disposizione un ampio arsenale di colpi devastanti e tattiche che sono efficaci su qualunque superficie. Se si vuole giocare come loro e ottenere quel successo, si deve avere la stessa dote.

Il problema è che, per la grande maggioranza dei giocatori, anche tra i primi 10, questo non succederà mai. Non importa se David Ferrer prenda come allenatori Pete Sampras e Mark Philippoussis, comunque non potrà mai essere più efficace al servizio. John Isner potrebbe farsi seguire da Andre Agassi in preparazione della stagione successiva, rimarrebbe comunque tra i più deboli alla risposta del circuito.

Ciò che impedisce a questi giocatori di arrivare più in alto in classifica non è il fatto che non siano più completi, ma semplicemente che non siano dei giocatori migliori. Per definizione, la maggior parte delle persone non potrà mai essere il talento che definisce una generazione.

La maggior parte dei giocatori non è completa. E va bene così. Invece di inseguire il sogno impossibile di battere Djokovic con i colpi di Djokovic, meglio prendere più rischi per superare i giocatori più forti in uno o due aspetti del gioco. Se non dovesse funzionare, non importa, si perderebbe comunque.

Il principio del raggruppamento

Il tennis è uno sport che premia le strisce vincenti. Se si ottengono solo quattro punti alla risposta in un set, è molto meglio vincerli consecutivamente che in momenti tra loro distanti. È meglio vincere cinque partite in una settimana e non vincere poi più per le quattro settimane successive che vincere una partita ogni settimana.

Siano punti, game, set, partite o anche titoli, è meglio raggruppare i propri trionfi.

Se si ricerca a tutti i costi un gioco completo, i giocatori più forti non lasceranno spazio alle strisce vincenti. Fabio Fognini o Sabine Lisicki potrebbero regalare qualche punto durante una partita, Nadal non lo farà mai. L’unico modo per raggruppare punti vincenti contro Nadal è giocare un tennis così aggressivo che neanche lui riesce a neutralizzare. Solitamente non funziona ma, per la maggior parte dei giocatori, è la sola speranza. Non è del tutto casuale che il super aggressivo Davydenko sia l’unico giocatore in attività con un record positivo nei confronti di Nadal (poi mantenuto fino al ritiro, con sei vittorie e cinque sconfitte, n.d.t.).

Quello che non si è detto su Wawrinka

Stanislas Wawrinka probabilmente non avrebbe battuto un Nadal in salute in una partita al meglio dei cinque set come la finale degli Australian Open 2014 dell’altro giorno. Ma quando la schiena di Nadal ha incominciato a dare problemi, Wawrinka era già avanti nel punteggio, grazie a un uso efficace di tutte le armi a sua disposizione.

A prescindere da cosa dica la classifica questa settimana, Wawrinka non è uno dei tre migliori giocatori del mondo. Almeno, non lo è il Wawrinka medio. Ma è proprio qui il punto: il tennis non attribuisce punti classifica e premi partita come ricompensa alla regolarità. La regolarità ha permesso a Berdych di raggiungere i primi 10 e rimanerci a lungo…ma gli ha impedito di trascorrere molte settimane tra i primi 5.

Wawrinka non riuscirà a battere sempre Nadal o Djokovic e continuerà a subire la dose di sconfitte da giocatori con una classifica inferiore. Uno stile di gioco ad alto rischio come il suo, che gli ha assicurato un posto negli annali, non darà sempre i suoi frutti. Fa parte del pacchetto: Wawrinka non è arrivato a questo punto grazie all’aver mantenuto regolarità.

Uncontrolled Aggression

Servendo con un miglio orario in più di velocità

di Jeff Sackmann // TennisAbstract

Pubblicato il 13 ottobre 2011 – Traduzione di Edoardo Salvati

A parità di condizioni, aumentare la velocità della prima di servizio è un aspetto positivo…ma quanto è utile? In un precedente articolo, ho introdotto alcuni numeri generici, che sono però troppo grezzi per rispondere a questa domanda.

Abbiamo invece bisogno di vedere cosa succede quando determinati giocatori servono un po’ più velocemente o un po’ più lentamente. Ci sono delle volte in cui la velocità del servizio è modificata di proposito (come ad esempio in servizi a uscire con molta rotazione) ma, nella maggior parte dei casi, ogni giocatore rimane in un intervallo di alternative al servizio abbastanza limitato e definito dalla potenza e dal tocco che è in grado di esprimere.

Ho costruito un algoritmo molto complicato, quindi inizio con l’esporre i risultati.

I risultati

Sembra che per un buon numero di giocatori l’aumento di un miglio orario (mph), pari a 1.6 km/h, nella velocità del servizio si traduca in una vittoria dello 0.2% in più di punti sulla prima di servizio. Non sono tanti, non è nemmeno un punto a partita. 

Ogni aiuto è prezioso e, sulla base dei miei modelli di probabilità di vittoria, vincere lo 0.2% di punti in più sulla prima di servizio può aumentare la probabilità di vincere una partita equilibrata dal 50% a quasi il 51%. Tranne forse agli estremi, questo rimane valido anche per incrementi di 2 mph (3.2 km/h), 3 mph (4.8 km/h) o superiori, quindi un aumento di 5 mph (8 km/h) trasforma una partita con il 50% di probabilità in una con il 54% (nell’ipotesi che tutti i giocatori gestiscano incrementi nella velocità del servizio allo stesso modo. Sono convinto che non sia così, ma in questa fase è un’ipotesi da prendere per vera).   

L’effetto di un aumento della velocità è ancora più evidente per la frequenza di ace e di servizi vincenti. Ogni mph in più nel servizio di un giocatore contribuisce a migliorare la frequenza di ace di circa lo 0.4% e quella di servizi vincenti di circa lo 0.5%.

Qualche parola sull’algoritmo e alcune avvertenze.

Il procedimento

L’algoritmo è stato implementato per considerare (nella massima misura possibile) quattro diversi tipi di servizi e di stili di gioco, di diverse medie di velocità al servizio sulla lato della parità e dei vantaggi, così come di diverse direzioni (esterna, al corpo, al centro).

18 giocatori con più di 150 punti

Ho utilizzato solamente i dati relativi agli US Open 2011 in modo da evitare differenze tra superfici e tra apparecchi di registrazione della velocità nei tornei in cui sono disponibili. Ho considerato solo i 18 giocatori con più di 150 punti sulla prima di servizio secondo le rilevazioni di Pointstream.

Velocità media della prima per diverse direzioni

Per ciascuno, ho calcolato la velocità media della prima di servizio per le seguenti sei direzioni: esterna, al corpo e al centro nel lato della parità ed esterna, al centro e al corpo nel lato dei vantaggi. Ho poi selezionato casualmente 150 dei punti sulla prima di servizio e, per ogni punto, segnato la differenza tra la velocità del servizio in quello specifico punto e la media del giocatore per la direzione/lato di riferimento.

Categorizzazione

Infine, ciascuno dei 2700 punti è stato categorizzato come 0 (media per quel giocatore/lato/direzione), o +1 (un miglio sopra la media) o -4 e così via, dando vita a molti gruppi di punti per ogni categoria. Di questi, alcuni erano troppo piccoli ai fini dell’analisi, quindi li ho accorpati in serie di cinque (-2, -1, 0, +1, +2), (-1, 0, +1, +2, +3) e così via. In questo modo i gruppi sono diventati utili da circa -15 a +15.   

Confronto tra frequenze

Successivamente, ho considerato diverse statistiche per ogni gruppo (punti vinti, ace, servizi vincenti) e paragonato le frequenze di ciascuna da un gruppo al successivo. I risultati si sono rivelati abbastanza incostanti – in alcuni casi, un mph in più ha determinato meno ace o meno punti vincenti – ma su un campione di 31 gruppi i valori sono tendenzialmente saliti. I numeri citati in precedenza sono le medie per ogni cambiamento di un mph di velocità.

Avvertenze

Non è un campione molto grande, specialmente separando i servizi in gruppi di 0, +1, +2 e così via.

Il giocatore alla risposta è sotto la media

Un problema con i dati a disposizione è dovuto al fatto che i 18 giocatori al servizio stavano solitamente vincendo, ed è il motivo per il quale hanno accumulato prime a sufficienza per essere inclusi. Così, il giocatore alla risposta nel campione è sotto la media. Non è necessariamente un aspetto negativo – forse i giocatori alla risposta sotto la media reagiscono a variazioni di velocità nello stesso modo dei giocatori alla risposta sopra la media – ma in assenza di più dati è difficile stabilirlo. 

Velocità di 5 mph sotto la media

Una seconda preoccupazione emerge da quello che i numeri dicono per velocità di circa 5 mph (8 km/h) sotto la media. L’algoritmo funziona nell’ipotesi che un servizio da 120 mph (193 km/h) sia lo stesso di un servizio da 121 mph (195 km/h), solo più lento. Confrontando 120 mph con 121 mph probabilmente è vero. Nel confronto però tra 120 e 108 (174 km/h) – con lo stesso giocatore e nella stessa direzione – probabilmente non lo è. 108 mph non sono una simulazione di cosa succede se il giocatore non è così bravo al servizio; è probabile che si tratti invece  di una scelta voluta, magari di un servizio con aggiunta di effetto.

Detto questo, l’algoritmo non fa un confronto diretto tra 120 e 108, ma tra 108 e 109 mph (175 km/h) e forse in aggregato si possono derivare informazioni interessanti dal confronto tra una prima di servizio strategicamente a effetto e una prima identica ma più veloce di un mph. In ogni caso, limitare l’intervallo tra -10 e +10 o anche -7 e +7 non cambia molto i risultati.

Inadeguatezza per gli estremi

In ultimo, il campione è completamente inadeguato per dare delucidazioni agli estremi. Il giocatore medio sembra poter migliorare la sua probabilità di vittoria aggiungendo un po’ di velocità, ma è così anche per John Isner? Potrebbe esserci un intervallo entro il quale un giocatore ricava il massimo vantaggio da una prima di servizio più veloce di 1, 5 o 10 mph (16 km/h), oltre il quale però il vantaggio è più limitato.

The Effect of Serve Speed

Uno sguardo ravvicinato al rapporto tra vincenti ed errori non forzati

di Jeff Sackmann // TennisAbstract

Pubblicato il 4 settembre 2015 – Traduzione di Edoardo Salvati

Ci sono poche statistiche nel tennis più frequentemente citate del numero di vincenti e di errori non forzati. Praticamente qualsiasi diretta televisiva ne trasmette il conteggio, e il rapporto tra i due numeri riceve la stessa attenzione durante la telecronaca di tutte le altre statistiche.

Se mettiamo da parte le problematiche legate agli errori non forzati, il rapporto tra vincenti ed errori non forzati (V/ENF) sembra avere un certo valore. Non c’è discussione sulla validità dei vincenti, quindi più vincenti devono essere meglio di meno vincenti. Gli errori non vanno certamente bene, quindi meno se ne compiono meglio è.

Da queste supposizioni scarsamente efficaci alla saggezza popolare tennistica secondo la quale un giocatore dovrebbe puntare a collezionare più vincenti di errori non forzati ottenendo di fatto un rapporto tra i due di almeno 1.0, il passaggio è breve.

Come ogni statistica, anche questa non è perfetta. Con l’aiuto di dati punto per punto da più di 1000 partite del Match Charting Project, possiamo procedere a un esame più attento.

L’eccitazione relativa al rapporto V/ENF è giustificata?

Nel confronto tra il rapporto V/ENF di due giocatori, si trova che il giocatore con il valore più alto ha quasi sempre vinto la partita. Nessuna sorpresa in questo caso, visto che vincenti ed errori non forzati sono rappresentazione diretta di punti vinti e persi.

Non è un indicatore perfetto però. Sia nelle partite maschili che in quelle femminili, il giocatore e la giocatrice con il valore più basso di V/ENF vincono l’11% delle volte. Vincenti ed errori non forzati compongono circa il 70% del totale dei punti, quindi se il rimanente 30% propende con decisione verso una sola direzione – specialmente nelle partite molto equilibrate – si troveranno risultati inattesi.

La situazione si complica non poco quando mettiamo alla prova la magica soglia di 1.0 nel valore di V/ENF. È il numero che i commentatori citano sempre, come se fosse la sottile linea di distinzione tra vincitori e vinti. Siccome i valori di V/ENF cambiano sostanzialmente tra generi, vale la pena esaminare i due circuiti separatamente.

Falsi positivi e negativi

Nelle 512 partite al momento presenti nel database del Match Charting Project, i giocatori hanno siglato un rapporto di almeno 1.0 solo il 41.3% delle volte. In più del 25% di quei “successi” hanno però perso la partita. Questo significa che abbiamo molti falsi positivi e negativi: sconfitti che superano la soglia di 1.0 così come molti vincitori che non riescono a raggiungerla.

I giocatori che hanno raggiunto o superato la fatidica soglia di 1.0 hanno vinto il 74% delle partite. Ma l’intervallo appena superiore – da 1.0 a 1.1 – ha portato a vittorie solo nel 60% dei casi.

Non esiste una chiara linea di demarcazione tra un buon valore del rapporto e uno non buono: anche a 1.2 di V/ENF, i giocatori vincono solo il 70% delle partite. Con un valore basso come 0.8 ne vincono circa il 50%.

Gran parte del problema è originata dal fatto che un giocatore condiziona i numeri dell’avversario e viceversa. Contro un difensore che gioca da fondo, un giocatore medio vedrà diminuire i suoi vincenti e aumentare i suoi errori non forzati. In una partita ipotetica di quel tipo, entrambi otterranno un valore al di sotto di 1.0. Contro un attaccante dal grande servizio, lo stesso giocatore colpirà più vincenti e, visto che gli scambi sono più brevi, accumulerà meno errori non forzati. Questo scenario restituirà spesso due valori sopra a 1.0.

Per le donne il discorso è diverso

Nel campione di 552 partite disponibili, le giocatrici hanno riportato un V/ENF di almeno 1.0 il 26% delle volte. Considerando che il valore medio è molto basso – circa 0.7 – non ci sono molti falsi positivi. Le giocatrici che raggiungono la soglia di 1.0 vincono l’89% delle partite.

Per le donne, un obiettivo più ragionevole è nell’intorno di 0.85. Equivale all’incirca a 1.2 per gli uomini, nel senso che un valore in quella zona si traduce in circa il 70% di vittorie.

Non esiste un numero magico, è indubbio. Anche se ci si accorda su soglie rivisitate come lo 0.85, il conteggio di vincenti ed errori non forzati esclude troppe informazioni. Nel secondo altalenante turno degli US Open 2015 tra Sara Errani e Jelena Ostapenko, Errani ha colpito 11 vincenti e 24 errori non forzati; Ostapenko ha colpito 54 vincenti e 49 errori non forzati. Un valore di 0.46, come quello di Errani, porta a vincere solo nel 29% dei casi, mentre un valore di 1.1, come quello di Ostapenko, vale la vittoria nell’87% delle volte. Eppure, è Errani che è andata avanti nel torneo, vincendo in tre set.

Un’analisi specifica delle singole componenti

La partita tra Errani e Ostapenko apre a un’altra sfumatura di analisi. Il rapporto V/ENF di Errani è stato terribile. Mantenendo però bassa la frequenza di errori non forzati, ha raggiunto almeno la metà del traguardo, inducendo Ostapenko a commettere più errori. E per quanto Ostapenko abbia colpito moltissimi vincenti, il numero dei suoi errori non forzati è stato sufficientemente alto da tenere Errani in partita.

Un esame indipendente di vincenti ed errori non forzati non fornisce comunque alcun numero magico, ma comunica più di quanto il rapporto V/ENF non faccia di partenza. Errani ha commesso errori non forzati solo nel 14% dei punti che – preso singolarmente – si traduce in una vittoria nel 70% dei casi. La frequenza del 28% di errori non forzati di Ostapenko porta alla vittoria solo nel 20% dei casi.

Isolando le due componenti del rapporto, possiamo definire degli obiettivi chiari per ciascuna. Nel tennis femminile, una frequenza di errori non forzati tra il 14 e il 16% – presa singolarmente – si traduce in una probabilità di vittoria del 70%. Per quanto riguarda i vincenti, si osserva che una frequenza tra il 19 e il 20% genera sempre una probabilità di vittoria del 70%.

Aumentare i vincenti o diminuire gli errori non forzati?

Questi risultati aiutano a rispondere a un’altra domanda che spesso si sente fare: è più importante aumentare i vincenti o diminuire gli errori non forzati? Sulla base di questi numeri, la risposta è diminuire gli errori non forzati, ma con un margine molto sottile rispetto ad aumentare i vincenti, e solo per il circuito femminile. La giocatrice con più vincenti vince il 68% delle partite, mentre la giocatrice con meno errori non forzati ne vince il 73%. In un’analisi più sofisticata, nella quale ho raggruppato le partite in funzione della frequenza di vincenti e di errori non forzati, il margine sembra essere ancora più ridotto. La relazione tra frequenza di errori non forzati e percentuale di vittorie è stata di pochissimo più forte (r^2 = 0.92) della relazione tra frequenza di vincenti e percentuale di vittorie (r^2 = 0.90).

Le componenti nel caso degli uomini

Per il tennis maschile, le soglie del 70% sono diverse. Presa singolarmente, a una frequenza di vincenti di circa il 22% corrisponde il 70% di probabilità di vittoria. La stessa percentuale è data da una frequenza del 15% negli errori non forzati.

L’importanza relativa di vincenti ed errori non forzati nel circuito maschile non è la stessa vista per le donne. Forse perché gli ace – che vengono conteggiati come vincenti – sono uno degli aspetti determinanti del gioco. Di nuovo, la differenza è marginale, ma in questo caso la relazione tra frequenza di vincenti e percentuale di vittorie (r^2 = 0.94) è un po’ più forte della relazione tra frequenza di errori non forzati e percentuale di vittorie (r^2 = 0.92).

Ho quasi terminato

La maggior parte dei giocatori gioca molte partite nelle quali raggiunge la soglia di 1.0 nel rapporto V/ENF perdendole poi comunque. Molto spesso, la maggior parte delle giocatrici non riesce a raggiungere lo standard di 1.0 e alcune fra loro, come Errani, collezionano eccellenti carriere nonostante non riescano quasi mai ad arrivare a quello standard. Si potrebbe fare molto meglio di così.

Per una generica regola del pollice, la soglia obiettivo di V/ENF pari a 1.0 non è orribile. Ma, come abbiamo visto, con un’osservazione leggermente più sofisticata – quella che prende in considerazione anche le differenze tra uomini e donne, come l’indipendenza di valore delle componenti frequenza di vincenti e frequenza di errori non forzati – si otterrebbero risultati considerevolmente più affidabili.

A Closer Look at the Winner-Unforced Error Ratio

Quanto conta l’altezza nel tennis maschile?

di Jeff Sackmann // TennisAbstract

Pubblicato il 4 settembre 2017 – Traduzione di Edoardo Salvati

L’altezza conta, ovviamente. In media, i giocatori più alti sono in grado di servire con più velocità e con maggiore efficacia dei giocatori più bassi. E, solitamente, i giocatori più bassi riescono a ottenere risultati sul circuito ATP grazie a un gioco in risposta migliore e a una maggiore abilità negli spostamenti rispetto ai colleghi più alti.

La saggezza popolare tennistica considera l’altezza un vantaggio, ma fino a un certo punto. Qualche centimetro sopra a 1,83 metri (6 piedi o 6’0”) – tra 185 cm (6’1”) e 191 cm (6’3”) – va bene, molto oltre quell’intervallo diventa troppo. Nella storia della classifica ufficiale, nessun giocatore più alto di 193 cm (6’4”, Marat Safin) è diventato numero 1.

La sorprendente presenza di Diego Schwartzman, alto 170 cm (5’7”), nei quarti di finale degli US Open 2017 ha portato il tema alla ribalta, anche se esperti e tifosi ne parlano in continuazione. È l’argomento ideale per una semplice analisi statistica eppure, come succede spesso nel tennis, sono proprio questo tipo di ricerche a non figurare nelle conversazioni. Cerchiamo di porre rimedio.

Quando dico semplice, è quello che davvero intendo. Tutti sanno che i giocatori più alti servono un numero maggiore di ace dei più bassi. Ma quanti di più? Che forza possiede il legame tra l’altezza e, ad esempio, i punti vinti sulla prima di servizio?

Relazione tra altezza e nove diverse statistiche

In questo articolo mostrerò la relazione tra l’altezza e nove diverse statistiche, dal record complessivo di partite vinte a numeri specifici per il servizio e la risposta.

Per definire il campione da esaminare, ho considerato – nel periodo tra il 1998 e il 2017 – le stagioni di quei giocatori con 25 anni di età e almeno 30 partite giocate nel circuito maggiore (ho preso solo una stagione per giocatore in modo da evitare che i giocatori migliori dalle carriere più lunghe avessero una rappresentazione eccessiva).

Si ottengono così 156 stagioni-giocatore, da Hicham Arazi e Greg Rusedski nel 1998 a Schwartzman e Jack Sock nel 2017. Non ci sono molti giocatori agli estremi, quindi ho messo insieme tutti i giocatori non più alti di 173 cm (5’8”) e poi, in un altro gruppo, tutti i giocatori alti almeno 196 cm (6’5”). Ho fatto la stessa cosa anche per i giocatori alti 178 cm (5’10”) con quelli alti 175 cm (5’9”), visto che solo quattro giocatori alti 178 cm figuravano nel campione.

In questo modo si hanno nove “gruppi di altezza”: uno per ogni 2.5 cm circa (1 piede) tra 170 cm e 196 cm, tranne appunto l’altezza di 178 cm (il sito ufficiale dell’ATP indica l’altezza di un giocatore in metri, ma il database deve possederla anche in piedi, perché a ogni altezza in centimetri corrisponde un numero intero espresso in piedi: nessun giocatore ad esempio è indicato con un’altezza di 174 cm o 5’8.5”).

L’altezza di alcuni giocatori è certamente superiore a quella effettiva, come spesso accade tra atleti e in determinate organizzazioni (come le franchigie della NBA ad esempio, n.d.t.), ma dobbiamo arrangiarci con le informazioni disponibili, nell’ipotesi che siano divergenze tra loro abbastanza coerenti.

Relazione con la percentuale di vittorie

Iniziamo con le partite vinte, il più basilare indicatore di successo nel tennis. In questo caso è ragionevole evidenziare l’esistenza di una relazione forte, anche se il gruppo di giocatori alti 185 cm è efficace quasi quanto l’insieme dei più alti. In ognuno dei grafici che seguono, l’altezza è riportata sull’asse delle ascisse in centimetri, da 173 cm (il gruppo con al massimo quell’altezza) a 196 cm (il gruppo con quell’altezza minima).

A livello di singolo punto

Esiste una relazione simile, anche se leggermente più debole, a livello di singolo punto. Considerando che una variazione ridotta nel numero di punti si traduce in una grande differenza nel numero di partite vinte (nel caso più estremo, vincere il 55% dei punti porta a quasi il 100% la probabilità di vincere la partita), non siamo di fronte a una sorpresa. A livello di intera partita, la correlazione è r^2= 0.38, mentre a livello di singolo punto, come rappresentato dal grafico, r^2 = 0.27.

(Il motivo per cui tutte le medie sono sopra al 50% risiede nel fatto che il campione è limitato a quelle stagioni-giocatore con almeno 30 partite, un buon numero delle quali è contro avversari che non giocano regolarmente sul circuito maggiore, e i giocatori che invece lo fanno – vale a dire quelli inseriti nel campione – ne vincono una parte considerevole.)

Statistiche relative al servizio

Le nostre supposizioni vengono confermate. I giocatori più alti sono più efficaci al servizio, con un divario enorme, che va dal 60% dei punti vinti al servizio per i giocatori più bassi fino a circa il 70% per il più alti.

Per quanto questa relazione sia forte (r^2 = 0.81), la relazione tra altezza e frequenza di ace è ancora più forte, pari a r^2 = 0.83.

Gli ace però non rappresentano l’immagine completa, perché la statistica con la correlazione più forte rispetto all’altezza è il numero di punti vinti con la prima di servizio (r^2 = 0.92), come mostrato dal grafico.

È a questo punto che le cose iniziano a farsi interessanti. Quasi ogni piede, o 2.5 cm circa, aggiuntivo di altezza rende un giocatore più efficace sulla prima di servizio, ma gli avversari riescono a gestire con molta più facilità la seconda di servizio dei giocatori alti. Rimane una modesta correlazione con l’altezza (r^2 = 0.18), ma è la più debole tra tutte le statistiche introdotte in quest’analisi.

No vantaggi significativi sulla seconda

Essere alti è un vantaggio, come è facile rendersene conto quando John Isner serve quasi con noncuranza un ace sulla seconda lontano dalla possibile risposta dello sfortunato avversario. A eccezione del gruppo dei più alti, non ci sono vantaggi significativi sulla seconda di servizio.

Giocatori alti 193 cm vincono lo stesso numero di punti sulla seconda di servizio di giocatori alti 175 cm. Questo non significa che la seconda di servizio dei giocatori più bassi sia necessariamente della stessa qualità di quelli più alti – anzi, probabilmente non lo è – ma solo che i giocatori più bassi possiedono generalmente altre capacità su cui fare affidamento nei punti giocati sulla seconda di servizio, che normalmente hanno una durata più lunga.

Per la finalità di questa ricerca, non è così importante sapere come i giocatori più bassi riescano a cancellare il vantaggio dettato dall’altezza dei loro avversari nella risposta alla seconda di servizio, ma solo che siano chiaramente in grado di farlo.

Statistiche relative alla risposta

Non ci sarebbe di cui parlare su questo argomento – e allo stesso modo David Ferrer non riceverebbe molto probabilmente un posto nella Hall of Fame – se la relazione inversa tra altezza e efficacia alla risposta non fosse quasi altrettanto forte di quella positiva tra altezza e bravura al servizio.

La parola chiave in questo caso è “quasi”. La relazione tra altezza e totale dei punti vinti alla risposta è forte (r^2 = 0.74) quasi quanto quella tra altezza e totale dei punti vinti al servizio, ma non così tanto.

Schwartzman sta cercando di fare più di quanto gli spetti per mantenere il lato sinistro della curva sui valori mostrati dal grafico: è allo stesso tempo il più basso tra i primi 50 del mondo e il migliore alla risposta.

Sulla prima

Sui punti giocati sulla prima di servizio però, c’è uno sforzo massimo che anche il giocatore alla risposta può produrre: i più bassi conservano si un vantaggio, ma è meno consistente. La relazione è leggermente più debole, pari a r^2 = 0.63.

Sulla seconda

Ne consegue quindi che la relazione tra altezza e punti vinti alla risposta sulla seconda di servizio deve essere più forte, pari a r^2 = 0.77.

I grafici relativi ai punti complessivamente vinti alla risposta e ai punti vinti alla risposta sulla prima di servizio evidenziano con estrema chiarezza il divario negativo che i giocatori più alti subiscono dal resto del gruppo.

I grafici in realtà esaltano la differenza più del dovuto, perché ho inserito nello stesso gruppo i giocatori alti a partire da 196 cm (fino a 210 cm o 6’11”), e gli Isner del tennis (208 cm o 6’10”) sono significativamente meno efficaci di giocatori come Marin Cilic (198 cm o 6’6”).

Tuttavia, troviamo molte conferme della saggezza popolare tennistica per cui un altezza tra i 188 cm (6’2”) e i 190 cm permette ai giocatori di rimanere efficaci in entrambi gli aspetti del gioco, di fronte allo svantaggio legato a un aumento dell’altezza, anche lieve.

Una nota in merito all’effetto di selezione del campione

È facile lasciarsi andare ad affermazioni del tipo: “I giocatori più bassi sono migliori nel gioco alla risposta”. Quello che si vuole in realtà dire è: “Dei giocatori stabilmente attivi nel circuito maggiore, quelli più bassi sono più bravi alla risposta.” E devono esserlo, perché è quasi impossibile per loro servire con la stessa efficacia dei giocatori di vertice. Se sono riusciti a entrare tra i primi 50, devono aver sviluppato un gioco alla risposta di altissimo livello. Più è basso un giocatore, più è probabile che questo sia vero.

Lo stesso ragionamento diventa però sostanzialmente più debole se scendiamo di un paio di pioli nella scala delle capacità tennistiche. Nel tennis giocato a livello universitario (americano), è comunque ancora un vantaggio essere alti – come Isner può testimoniare – ma un giocatore dell’altezza di Benjamin Becker, 178 cm, può servire con la stessa precisione di quasi tutti gli avversari che incontrerà nei tornei di quella fascia.

Un’altra nota in merito all’effetto di selezione del campione

La scelta di utilizzare la stagione relativa al venticinquesimo anno di ogni giocatore potrebbe sottostimare il talento sia dei giocatori bassi che di quelli alti.

È possibile infatti che determinati stili di gioco portino a raggiungere il picco del proprio tennis prima o dopo quella data, a voler dire che i giocatori più alti potrebbero essere migliori a 25 anni mentre i giocatori più bassi potrebbero essere superiori a 28 anni.

Esistono evidenze a supporto di entrambe le tesi, quindi ritengo che non sia una problematica così rilevante, ma è certamente degna di approfondimento.

Per un’ulteriore lettura, recentemente Wiley Schubert Reed su TennisAbstract si è domandato se il tennis del futuro sarà dominato dai giocatori più alti.

How Much Does Height Matter in Men’s Tennis?

Un pronostico sulla Laver Cup

di Jeff Sackmann // TennisAbstract

Pubblicato il 20 settembre 2017 – Traduzione di Edoardo Salvati

Nel fine settimana avrà luogo la prima edizione della Laver Cup, un torneo tra stelle del tennis in cui si affrontano Europa e Resto del Mondo. Nella squadra Europea ci sono Roger Federer e Rafael Nadal: nonostante l’assenza di molti altri giocatori di vertice del continente, l’Europa è comunque molto più forte, almeno sulla carta.

Formazioni e valutazione Elo specifica per il cemento

La tabella mostra le due formazioni, con il nome di ciascun giocatore seguito dalla sua valutazione Elo ponderata per il cemento (la superficie del torneo) e la classifica Elo tra i giocatori in attività.

EUROPA            Elo:  valutazione   classifica 
Federer                 2350          2  
Nadal                   2225          4  
Zverev                  2127          7  
Berdych                 2038          14  
Cilic                   2029          15  
Thiem                   1995          17  
                                              
RESTO del MONDO   Elo:  valutazione   classifica  
Kyrgios                 2122          8  
Isner                   1968          22  
Sock                    1951          23  
Querrey                 1939          25  
Shapovalov              1875          36  
Tiafoe                  1574          153  
Del Potro*              2154          5

*Juan Martin del Potro si è ritirato. Ho comunque inserito la valutazione e classifica Elo per sottolineare quanto peserà la sua assenza nel Resto del Mondo.

La “ponderazione” Elo per superficie è la media tra la valutazione complessiva Elo (su tutte le superfici) e la valutazione Elo specifica per superficie. La ripartizione 50/50 possiede una capacità predittiva dell’esito di una partita molto migliore di quanto non sia quella delle due valutazioni Elo prese singolarmente.

Sul cemento, Nick Kyrgios può giocarsela con chiunque. Tuttavia, pur in presenza di talento specifico sul cemento nel contingente americano, tutti gli altri rappresentanti del Resto del Mondo hanno una valutazione inferiore a qualsiasi membro della squadra europea. Per loro, decisamente non un buon punto di partenza.

Per quanto riguarda il doppio? La tabella riepiloga le valutazioni D-Lo (Elo per il doppio) e la classifica di doppio dei dodici partecipanti, oltre quelle di Del Potro.

EUROPA            D-Lo:  valutazione   classifica
Nadal                    1895          4  
Berdych                  1760          28  
Cilic                    1676          76  
Federer**                1650          90  
Zverev                   1642          99  
Thiem                    1521          185  
                                                
RESTO del MONDO   D-Lo:  valutazione   classifica 
Sock                     1866          8  
Isner                    1755          29  
Kyrgios                  1723          45  
Querrey                  1715          49  
Shapovalov**             1600          130  
Tiafoe                   1546          166  
Del Potro*               1711          55

** Federer non gioca in doppio sul circuito maggiore dal 2015, e Denis Shapovalov non ci ha mai giocato. Sono numeri che hanno quindi il valore di una stima.

In questo frangente il Resto del Mondo ha un vantaggio. Entrambe le squadre possono schierare un giocatore di altissimo livello in doppio, Nadal e Jack Sock, ma il Resto del Mondo ha maggiore talento, specialmente se Shapovalov e Frances Tiafoe – il sostituto di Del Potro dell’ultimo minuto – non vengono messi in campo. Con solo un quarto delle partite di doppio nella competizione (e un eventuale 13esima partita decisiva, se necessaria), l’Europa rimane comunque la chiara favorita.

Il format

La Laver Cup si gioca a Praga nell’arco di tre giornate (da venerdì 22 settembre) e prevede quattro partite a giornata: tre singolari e un doppio. Ogni partita è al meglio dei tre set con il punto decisivo in caso di parità nel game e un super-tiebreak a 10 punti al posto del terzo set.

Nella prima giornata, il vincitore di ogni partita riceve un punto, nella seconda due punti e nella terza tre punti. In totale, ci sono 24 punti a disposizione e, dovesse presentarsi una parità al termine delle dodici partite, l’assegnazione della Laver Cup sarà stabilita da un solo set di doppio.

Tutti e dodici i partecipanti devono giocare almeno una partita di singolare e nessuno può giocarne più di due. Almeno quattro giocatori di ciascuna squadra devono giocare il doppio e non è possibile schierare la stessa coppia più di una volta, se non nel caso della tredicesima partita.

Tutto chiaro? Bene.

La strategia ottimale

Le regole stabiliscono che tre giocatori di ciascuna squadra giochino solo una partita di singolare e gli altri tre ne giochino due a testa. Salute permettendo, un capitano arguto userebbe i suoi migliori giocatori tre volte. Visto che le partite della seconda e terza giornata contano più di quelle della prima, è anche logico che i giocatori migliori verrebbero schierati nelle ultime due giornate.

(Ci sono delle considerazioni di teoria del gioco che, per comodità, tralascio. Il Resto del Mondo potrebbe usare i giocatori migliori già dalla prima giornata in modo da vincere punti contro i giocatori meno forti dell’Eruopa, o potrebbe lasciare intendere di farlo, nella speranza che la squadra europea faccia giocare i più forti nelle partite della prima giornata. Da quello di cui sono a conoscenza, nessuna squadra può modificare la sua formazione in risposta alle scelte della squadra avversaria, quindi le possibilità per questo tipo di strategia sono limitate.)

Doppio

Nel doppio, a strategia ideale nella scelta dei giocatori sarebbe quella di usare il giocatore migliore in tutte e tre le partite. Nella terza giornata, farebbe coppia con il secondo miglior giocatore, con il terzo miglior giocatore nella seconda giornata e con il quarto migliore nella prima giornata. Anche in questo caso la salute è un fattore e, considerando che sono tutti giocatori impegnati anche in singolare, lo diventa anche la condizione fisica. Il mio algoritmo prevede che Nadal giochi cinque volte – due in singolare e tre in doppio – e dubito fortemente che questo accada.

Il pronostico

Iniziamo dalla previsione dell’esito della Laver Cup nel caso in cui entrambi i capitani utilizzino in modo ottimale la propria formazione, anche se è un ipotesi difficilmente realistica. La simulazione è costruita assegnando un ordine casuale dei giocatori per ogni giorno di competizioni, vale a dire che se, ad esempio, Sam Querrey, Shapovalov e Tiafoe giocano nella prima giornata per il Resto del Mondo, non sappiamo chi giocherà per primo o contro quale avversario dell’Europa. Così, ogni simulazione è leggermente diversa dalle altre.

Come sempre, ho usato Elo (e D-Lo) per predire l’esito di specifici accoppiamenti tra avversari. Tenendo conto del super-tiebreak al terzo set e del fatto che alla fine è solo un’esibizione, ho aggiunto un tocco di casualità extra a ogni previsione: se l’algoritmo prevede che un giocatore abbia il 60% di probabilità di vittoria, con questa modifica si riduce a circa il 57.7%. Quando lo scorso inverno ho rivisto i numeri della IPTL, ho trovato i risultati di quelle esibizioni sorprendentemente allineati con le attese, e ho il sospetto che i giocatori affronteranno la Laver Cup con un po’ più di serietà della IPTL.

Sempre nell’ipotesi di un utilizzo ottimale dei giocatori, le previsioni danno all’Europa una probabilità di vittoria dell’84.3%, e il punteggio mediano è di 16-8. Una parità di 12-12 ha circa il 6.5% di probabilità e, in quel caso, l’Europa ha un vantaggio esiguo, pari al 52.4%.

Se avesse giocato anche Del Potro, avrebbe aumentato la probabilità del Resto del Mondo di non poco, riducendo quella dell’Europa al 75.5% e arrotondando il punteggio più probabile a 15-9.

Previsioni con scelta casuale dei giocatori

Cosa succede se applichiamo la regola dell’uso ottimale dei giocatori con minore rigidità? Non ho idea di come prevedere le mosse dei due capitani, John McEnroe e Bjorn Borg. Possiamo però rendere casuale la scelta dei giocatori per capire il grado di incidenza che ciascuno possiede.

Se si rende casuale qualsiasi cosa, cioè se a tutti gli effetti semplicemente si estrae il nome di un giocatore dall’urna per ogni partita, l’Europa vince nel 79.7% delle volte, solitamente con un punteggio di 15-9. C’è una probabilità del 7.6% di una tredicesima partita decisiva e, siccome il Resto del Mondo ha qualche opzione in più nel doppio, vince quella partita con una maggioranza davvero esile (con una casualità totale, esiste un minimo rischio di violare le regole, magari di usare la stessa coppia di doppio due volte o lasciare un giocatore in panchina per tutte e nove le partite di singolare. Sono in ogni caso possibilità molto ridotte, quindi ho evitato di calcolarle).

Più bravo McEnroe a scegliere

Possiamo anche modificare l’utilizzo della formazione per entrambe le squadre, dovesse un capitano mostrare più esperienza dell’altro (o se una stella come Nadal non riesce a giocare quanto si vorrebbe). Lo scenario migliore per i non favoriti del Resto del Mondo è che McEnroe scelga i migliori giocatori per ogni partita e Borg non lo faccia. Ipotizzando che solo i giocatori europei siano estratti a sorte, la loro probabilità di vittoria scende al 63.1% e la differenza vista nel punteggio si riduce fino al 13-11. La possibilità di uno spareggio sale al 10%.

Più bravo Borg a scegliere

D’altro canto però è anche possibile che Borg sia il più bravo dei due a utilizzare i suoi giocatori. Dopo tutto, non serve aver vinto undici Slam per realizzare che Federer e Nadal dovrebbero scendere in campo quando è più alta la posta in palio. Quest’ultima previsione, con una scelta casuale dei giocatori del Resto del Mondo e una ideale di quelli europei, vede l’Europa ammassare un incredibile 92.3% di probabilità di vittoria, e un punteggio mediano di 17-7. Il Resto del Mondo avrebbe una probabilità di raggiungere lo spareggio solo del 4%, e anche in quel caso l’Europa vincerebbe nel 75% delle volte.

Abbiamo terminato. I numeri giustificano le attese per una vittoria dell’Europa in quanto squadra largamente favorita e stabiliscono l’entità del probabile distacco. Forse un giorno Tiafoe e Shapovalov faranno parte di una squadra in grado di vincere la Laver Cup, ma sembra proprio che dovranno aspettare ancora qualche anno.

Aggiornamento

Ancora un pensiero…sugli specialisti del doppio. Entrambi i capitani hanno due scelte a loro discrezione da usare, a prescindere dalla classifica. La maggior parte dei più forti giocatori di doppio sono molto meno bravi in singolare ma, come abbiamo visto, l’utilizzo di un giocatore può essere limitato a una partita della prima giornata che vale solo un punto e, come doppista, può avere un ruolo in tre partite, per un totale di sei punti.

Sostituzione con gli specialisti del doppio

Sostituire Dominic Thiem (un giocatore molto debole in doppio per il quale il cemento indoor è una superficie meno che ideale) con Nicolas Mahut avrebbe aumentato la probabilità di vittoria dell’Europa dall’84.3% all’88.5%. Nella remota possibilità che l’esito del torneo rimanesse in sospeso fino all’ultima partita di doppio e allo spareggio, la coppia Mahut-Nadal (per quanto suoni poco ortodossa) sarebbe tra le migliori che entrambi i capitani potrebbero schierare.

Più benefici per il Resto del Mondo

Nella squadra del Resto del Mondo – specialmente con il ritiro di Del Potro – c’è ulteriore margine di miglioramento. Al momento, la terza valutazione più alta sul cemento nel doppio è quella di Marcelo Melo, un giocatore decisamente inferiore in singolare ma significativamente più forte degli attuali possibili compagni di Sock in doppio. Se assegnamo a Melo una valutazione Elo di 1450 e lo mettiamo nella formazione al posto di Tiafoe, facendo giocare la squadra che ne risulta contro l’Europa in cui c’è Thiem (e non Mahut), riesce quasi a compensare la perdita di Del Potro. La probabilità di vittoria del Resto del Mondo aumenta dal 15.7% al 19.3%.

Sfortunatamente, sia Borg che McEnroe potrebbero aver perso la possibilità di trovare altri punti addizionali dalla propria formazione, è infatti un trucco che funzionerebbe solo una volta.

Se entrambe facessero questo scambio, Mahut per Thiem e Melo per Thiafoe, la probabilità di vittoria tornerebbe per ciascuna squadra tornerebbe vicina a quella calcolata in partenza: 85.8% per l’Europa. È superiore a quella iniziale (84.3%), solo perché Mahut ha un profilo più adatto a questa competizione, essendo un giocatore al vertice nel doppio e credibile anche come singolarista.

Nessun giocatore eventualmente disponibile per la squadra del Resto del Mondo (tranne Sock che è già in formazione) avrebbe sul cemento analogo valore. Viene in mente Vasek Pospisil, anche se è regredito dalla sua massima forma sia in singolare che in doppio. Pablo Cuevas farebbe bene sulla terra battuta, ma su una superficie più veloce garantirebbe un apporto solo marginale rispetto ai doppisti già convocati.

Magari se ne parla il prossimo anno.

Forecasting the Laver Cup

Una prefazione per il libro su chi è il più grande di sempre

di Jeff Sackmann // TennisAbstract

Pubblicato il 15 settembre 2017 – Traduzione di Edoardo Salvati

Qualche giorno fa, l’Economist ha pubblicato un mio articolo sul confronto tra i titoli Slam di Rafael Nadal e Roger Federer. Ho sostenuto la tesi secondo la quale, considerando che il percorso di Nadal negli Slam è stato più difficile (a eccezione degli US Open 2017), le 16 vittorie valgono più – anche se di un nulla – delle 19 di Federer.

Inevitabilmente, alcuni lettori hanno sintetizzato le mie conclusioni in qualcosa del tipo “le statistiche mostrano che Nadal è il più grande di sempre”. Appunto…andiamoci piano con le sentenze. Può anche essere che Nadal sia meglio di Federer e non sarebbe impensabile elaborare una solida linea difensiva di questo assunto basata sui numeri. Ma una valutazione della prestazione – corretta per la difficoltà del tabellone – di 18.8 (Nadal) rispetto a 18.7 (Federer), su 35 tornei complessivi, non basta per supportarla.

Primo passaggio: cosa si intende per il più grande?

Ci sono due passaggi fondamentali per la ricerca di una soluzione finale a qualsiasi dibatto sul “più grande di sempre” (nel tennis come in altri sport). Il primo riguarda la definizione. Cosa si intende per “il più grande”? Quanto contano di più gli Slam rispetto agli altri tornei? Come si considera la longevità? E la classifica o i risultati su differenti superfici? Come ponderiamo il massimo livello di tennis raggiunto in carriera? Quanto conta la qualità della competizione o il bilancio negli scontri diretti? Si potrebbe andare avanti all’infinito. Solo una volta che la definizione di “più grande” è ben chiara, si può allora provare a prendere posizione per l’uno o l’altro giocatore.

Secondo passaggio: dare una risposta alle domande del primo passaggio

Il secondo passaggio – dare una risposta alle domande poste dal primo – richiede più lavoro, ma è anche molto meno opinabile. Se si decide che il più grande giocatore di sempre è quello che ha ottenuto la valutazione Elo più alta nel momento di suo massimo livello di tennis, allora possiamo affidarci al calcolo (è Novak Djokovic).

Se si selezionano dieci domande come plausibile modalità di rappresentazione per “chi è il più grande” non si avranno sempre le stesse risposte. Una maggiore attenzione alla longevità può far propendere per Federer (o Jimmy Connors). Nei risultati raggiunti solo nel momento di massima forma emerge Djokovic (o forse Bjorn Borg). Gran parte dello spazio nel mezzo è occupato da Nadal, a meno di non considerare anche il periodo precedente al professionismo, nel qual caso Rod Laver si prende un po’ della parte di Nadal.

Terzo passaggio: ragionare a ritroso nella convinzione che il proprio eroe sia il più grande

Naturalmente, molti tifosi saltano direttamente al terzo passaggio – crogiolarsi nella gloria riflessa del loro eroe – ragionando poi a ritroso. Nella strenua convinzione che il loro favorito sia il più grande di sempre, decidono che le domande più rilevanti sono di fatto quelle che lo incoronano. Su questo tipo di approccio fanno leva molte discussioni su internet, ma è decisamente distante dal livello di rigore scientifico che auspico.

Quando Federer, Nadal e Djokovic si saranno ritirati, a qualcuno probabilmente verrà l’idea di scrivere un intero libro sui possibili modi per determinare “il più grande” e stabilire chi, rispetto alle singole definizioni, è in cima alla classifica. Quanto stiamo facendo adesso è in larga misura contribuire a sezioni di capitoli di quel progetto, che prima o poi sarà realizzato. Ora come allora, un solo articolo non potrà mai essere sufficiente per porre fine a un dibattito di questa portata.

Nel frattempo, si può provare a fare luce sulle considerazioni che abbiamo già esposto. I titoli Slam non sono tutto, ma sono importanti e “19 è più di 16” e una freccia dalla punta affilata nella faretra dei sostenitori di Federer. Stabilire che proprio quei 19 non siano meglio proprio di quei 16 non liquida l’argomento tanto quanto “19 è più di 16” lo abbia mai fatto. Spero però che abbia aggiunto conoscenza sullo sport e sull’epopea dei suoi più grandi interpreti.

Nel microcosmo di un articolo da 1000 parole si possono illustrare molti concetti interessanti. Pensare di risolvere una tematica così ampia in un solo giro di penna è un’aspettativa per forza di cose disattesa. È difficile trovare risposte, ancora di più lo è scegliere la domanda giusta.

A Preface to All GOAT Arguments

Un po’ di ironia con il rapporto nei punti al servizio

di Jeff Sackmann // TennisAbstract

Pubblicato il 14 settembre 2017 – Traduzione di Edoardo Salvati

Nella vittoria a senso unico della finale degli US Open 2017 contro Kevin Anderson, Rafael Nadal non ha dovuto affrontare una sola palla break. Anderson non è nemmeno riuscito ad arrivare a molte situazioni di parità sul servizio di Nadal il quale, invece, ha costantemente messo pressione al suo avversario nei game alla risposta.

Questo ha determinato un rapporto inusuale: Anderson ha dovuto giocare molti più punti al servizio di quanto abbia fatto Nadal, nonostante entrambi abbiano giocato al servizio lo stesso numero di game. Nadal ha servito per 72 volte contro le 108 di Anderson, con un rapporto di 2/3 o, arrotondando, 0.67. Nel mio ultimo podcast, ho ipotizzato che questo rapporto nei punti al servizio è un comodo strumento per individuare il vincitore: se un giocatore supera i suoi game al servizio molto più velocemente dell’altro, probabilmente è perché, a differenza dell’avversario, sta tenendo facilmente il servizio.

Di solito è un valore intorno allo 0.96

Non è la migliore ipotesi che abbia mai formulato. È vera, ma non di un margine dirompente. In media, in una partita del circuito maschile il rapporto tra i punti giocati al servizio dal vincitore e i punti giocati al servizio dallo sconfitto è 0.96, che vorrebbe dire che Nadal ha servito 88 volte contro le 92 di Anderson. Il vincitore serve meno punti al servizio nel 57% delle partite. Con questo, potremmo aver trovato la prossima Chiave del Match di IBM!

Invece di scoprire una modalità di rappresentazione del successo effettivamente utile nella più basilare delle statistiche relative a una partita, siamo incappati nell’ennesimo risultato da aggiungere all’elenco delle imprese estreme di Nadal.

Delle circa 13.000 partite completate nei tornei Slam dal 1991, solo 147 vincitori – a malapena l’1% – hanno avuto un rapporto nei punti al servizio inferiore a 0.67. Delle 106 finali di cui sono disponibili dati, il valore di Nadal nella finale degli US Open 2017 è il più basso in assoluto. Ha battuto di poco lo 0.68 ottenuto da Federer nella finale degli Australian Open 2017 contro Fernando Gonzalez.

Una statistica su una stranezza che comunica poco

Si scopre inoltre che il rapporto nei punti al servizio è più da imputare al caso che altro, per Nadal quanto complessivamente per gli altri giocatori. In otto delle sue sedici vittorie negli Slam il rapporto è stato inferiore a 1.0, uguale a 1.0 in una e superiore a 1.0 nelle rimanenti sette. La sua media è un anonimo 0.98.

Ci siamo quindi: in una sola settimana, abbiamo osservato una stranezza, elaborato una statistica che la catturasse, e concluso che non comunica granché. E poi si parla di statistiche nel tennis!

Fun With Service Point Ratios

Denis Shapovalov e le partenze veloci sul circuito maggiore

di Jeff Sackmann // TennisAbstract

Pubblicato il 13 settembre 2017 – Traduzione di Edoardo Salvati

Un’estate da ricordare quella appena trascorsa per il diciottenne mancino canadese Denis Shapovalov. Nel Canada Masters ha sconfitto in sequenza Juan Martin Del Potro e Rafael Nadal. Agli US Open 2017 si è qualificato per il tabellone principale, ha battuto Jo Wilfried Tsonga e raggiunto il quarto turno alla sola seconda partecipazione in uno Slam.

Grazie alle vittorie e al palcoscenico importante in cui sono arrivate, è entrato tra i primi 60 della classifica ufficiale, nonostante abbia giocato meno di venti partite sul circuito maggiore. Il sistema di valutazione Elo, che assegna punti in funzione della bravura dell’avversario, è ancora più ottimista. Con questo approccio, dopo la vittoria su Tsonga, Shapovalov è arrivato a 1950 – valido per il 34esimo posto tra i giocatori del circuito – prima di perdere circa 25 punti Elo nella sconfitta contro Pablo Carreno Busta.

Sebbene un punteggio Elo di 1950 sia un numero arbitrario – non c’è nulla di magico in nessuna particolare soglia di punteggio Elo, è solo un meccanismo comparativo – permette di confrontare la partenza incandescente di Shapovalov con altri giocatori che subito si sono fatti sentire sul circuito maggiore.

Un gruppo illustre di cui far parte

Dai primi anni ’80, solo tredici giocatori hanno raggiunto una valutazione Elo di 1950 in meno partite di quelle che sono servite a Shapovalov. Come sempre con traguardi raggiunti a inizio carriera, ci sono alcuni nomi inaspettati ma, complessivamente, è un gruppo illustre di cui fare parte per un diciottenne.

Giocatore     Partite   Età  
Hewitt        7         16.9  
Nieminen      7         20.2  
Ferrero       10        19.4  
Ferrer        12        20.4  
Carlsen       12        19.4  
Haas          13        19.1  
Lundgren      13        20.7  
Van Lottum    14        21.8  
Bruguera      14        18.4  
Alonso        15        20.0

Giocatore     Partite   Età   
Malisse       16        18.6  
Siemerink     16        20.9  
Minar         16        21.2  
Mayer         17        20.7  
Caratti       17        20.7  
Kyrgios       17        19.3  
Shapovalov    17        18.4  
Strelba       17        22.1  
Berger        17        20.2  
Roddick       18        18.6

Ho trovato poco più di 350 giocatori i quali, a un certo punto della carriera, hanno ottenuto la loro più alta valutazione Elo superando almeno 1950. In media, hanno avuto bisogno di 75 partite per arrivarci (la mediana è 59), e due giocatori che ancora frequentano il circuito con regolarità, Gilles Muller e Albert Ramos, hanno impiegato quasi 300 partite.

Impressionante anche per età

Il record di Shapovalov è altrettanto impressionante se lo si considera in termini di età. Anche in questo caso si trova tra i primi venti giocatori della storia moderna del tennis: solo undici di questi sono arrivati a 1950 prima di compiere 18 anni, e Shapovalov ha superato i suoi da pochissimo.

E molti dei giocatori che hanno raggiunto quel punteggio da giovani hanno avuto bisogno di ben più esperienza sul circuito maggiore. Nella tabella ho incluso i primi 30 di questo elenco per mostrare come Shapovalov regga il confronto con diversi dei grandi nomi.

Giocatore     Partite   Età  
Krickstein    25        16.4  
Chang         32        16.5  
Hewitt        7         16.9  
Becker        27        17.5  
Wilander      27        17.5  
Perez Roldan  26        17.6  
Agassi        46        17.6  
Cash          66        17.6  
Ivanisevic    35        17.7  
Medvedev      22        17.8  

Giocatore     Partite   Età
Nadal         44        17.9  
Giammalva     21        18.0  
Skoff         19        18.1  
Arias         61        18.2  
Carlsson      56        18.3  
Bruguera      14        18.4  
Shapovalov    17        18.4  
Murray        22        18.4  
Del Potro     31        18.4  
Santoro       59        18.5  

Giocatore     Partite   Età
McEnroe       28        18.5  
Federer       40        18.5  
Edberg        40        18.5  
Roddick       18        18.6  
Sampras       56        18.6  
Enqvist       28        18.6  
Malisse       16        18.6  
Djokovic      33        18.8  
Courier       51        18.8  
Noah          41        18.8

Non ci sono garanzie quando si parla di talenti emergenti nel tennis, ma è senza dubbio un elenco prestigioso. In media, gli altri ventitré giocatori a raggiungere la soglia Elo di 1950 a 18 anni hanno migliorato poi la loro valutazione fino a 2100 prima dei 20 e sono saliti a 2250 a un certo punto della loro carriera. Il primo valore varrebbe la 12esima posizione nell’elenco attuale, il secondo porterebbe al quinto posto, appena dietro ai Fantastici Quattro. Nadal e Del Potro sono state le prime vittime illustri di Shapovalov: a giudicare dalla traiettoria verticale della sua carriera, non saranno le ultime.

Denis Shapovalov and Fast ATP Starts

Quantificare i tabelloni “passeggiata”, o la volta in cui Nadal finalmente ha avuto fortuna

di Jeff Sackmann // TennisAbstract

Pubblicato l’8 settembre 2017 – Traduzione di Edoardo Salvati

Aggiornamento

Rispetto alla prima versione di questo articolo, ho modificato la definizione di “difficoltà di percorso” in “facilità di percorso”, per meglio riflettere il senso della statistica che ho introdotto.

Rafael Nadal e Kevin Anderson hanno raggiunto la finale degli US Open 2017, quindi siamo in grado di determinare con precisione il valore della facilità di percorso per entrambi, a seconda di chi vinca la finale. Per Nadal il numero rimane identico a 51.4% e, dovesse vincere, la sua media in carriera per i 16 Slam aumenterebbe a circa il 15%. La facilità di percorso fino al titolo per Anderson è “solo” di 41.3% (rispetto al 47.1% calcolato non sapendo i nomi dei finalisti), che varrebbe il nono posto nel terzultimo elenco dell’articolo e al secondo posto, anche se di poco, tra i percorsi più facili degli ultimi trenta US Open.

Molti commenti sono stati espressi sulla debolezza di alcune sezioni del tabellone del singolare maschile degli US Open 2017, che sono sembrate tenute insieme con lo scotch. Diversi tra i giocatori più forti non hanno partecipato per infortunio e molti altri sono usciti ai primi turni. Pablo Carreno Busta ha raggiunto i quarti di finale battendo quattro qualificati ed è plausibile che Nadal possa vincere il torneo senza aver sconfitto un solo giocatore dei primi 20 del mondo.

Nulla di questo però dipende dai giocatori stessi, il cui compito è affrontare solo chi si trova dall’altra parte della rete. Non sapremo mai come si sarebbero comportati con un gruppo più agguerrito di avversari. La debolezza del tabellone però potrebbe influenzare il nostro ricordo del torneo. Se lasciamo che sia la qualità del campo partecipanti a rimanere impressa nella mente, dovremmo allora almeno tentare di mettere a confronto i giocatori del torneo 2017 con quelli di passate edizioni degli Slam.

Come misurare i percorsi di un tabellone

Ci sono diversi modi per quantificare la qualità di un tabellone. Visto che siamo interessati allo specifico insieme di avversari affrontati dai giocatori rimasti nel torneo, abbiamo bisogno di una statistica che concentri l’attenzione su di loro. Non è rilevante ad esempio che Nick Kyrgios fosse in tabellone, dato che nessuno dei semifinalisti ha dovuto giocarci contro. Invece della difficoltà del tabellone quindi, ci interessa quella che chiamerò “facilità di percorso”. È un concetto piuttosto immediato: quanto è difficile battere lo specifico insieme di avversari che Nadal (per fare un nome) ha dovuto affrontare?

Per arrivare a un numero, ci servono alcuni fattori: le valutazioni Elo ponderate per superficie di ciascuno degli avversari del giocatore considerato, insieme a una sorta di “Elo di riferimento” per un semifinalista medio di Slam (o finalista, o vincitore). Per stabilire la facilità di percorso di Nadal fino a questo momento, non vogliamo utilizzare la valutazione Elo di Nadal, perché se così facessimo, lo stesso identico percorso sembrerebbe più semplice o più difficile in funzione della qualità del giocatore che ha dovuto affrontarlo.

(L’esatto valore dell’“Elo di riferimento” non è così importante, ma per chi fosse interessato ai numeri, ho trovato la valutazione Elo media per ogni semifinalista, finalista e vincitore di tutti gli Slam dal 1988 su ciascuna delle tre superfici. Sul cemento, quei numeri sono rispettivamente 2145, 2198 e 2233. Per misurare la facilità di percorso fino alla semifinale, ho utilizzato il primo di quei numeri, per la facilità di percorso fino alla vittoria, ho utilizzato l’ultimo.)

Il percorso più difficile è di Del Potro

Per misurare la facilità di percorso dobbiamo rispondere a questa domanda: qual è la probabilità che (ad esempio) il semifinalista medio di Slam batta questo particolare insieme di giocatori? Nel caso di Nadal, deve ancora affrontare un giocatore con una valutazione Elo ponderata per il cemento superiore a 1900, e il tipico semifinalista con valutazione 2145 batterebbe i giocatori affrontati da Nadal il 71.5% delle volte. Si tratta di un percorso leggermente più facile di quello che Anderson ha dovuto fare per arrivare in semifinale, ma leggermente più difficile di quello di Carreno Busta. Juan Martin Del Potro invece si trova in un pianeta tutto suo. La tabella riepiloga i numeri relativi alla facilità di percorso dei quattro semifinalisti, mostrando quanto sia stato difficile (o facile) arrivare in semifinale, quanto lo sia per la finale e poi per il titolo.

Semifinalista   Percorso: SF      F       Vittoria  
Nadal                     71.5%   49.7%   51.4%  
Del Potro                 9.1%    7.5%    10.0%  
Anderson                  69.1%   68.9%   47.1%  
Carreno Busta             74.3%   71.2%   48.4%

(Non sapendo ancora, al momento della stesura, il percorso di ogni giocatore fino alla vittoria finale, ho fatto una media delle valutazioni Elo dei potenziali avversari. Anderson e Carreno Busta sono molto simili, quindi per Nadal e Del Potro, i loro potenziali avversari, non fa molta differenza.)

Stranezze

C’è una stranezza che emerge da questa statistica e che forse avete notato: nel caso di Nadal e Del Potro, la difficoltà di raggiungere la finale è maggiore di quella per la vittoria del torneo! Naturalmente non ha senso che sia così, ma i numeri si comportano in questo modo per via dell’“Elo di riferimento” che ho utilizzato. Il vincitore medio di Slam è più forte del finalista medio di Slam, quindi la tabella di fatto sottolinea come sia più facile per il vincitore medio di Slam battere i sette avversari di Nadal di quanto non sia facile per il finalista medio di Slam sconfiggere i primi sei avversari di Nadal. È una statistica più efficace nel raffronto tra percorsi passati dello stesso livello, quindi vittoria finale rispetto a vittoria finale, semifinale verso semifinale, ed è quello che farò nel resto dell’articolo.

Eccezioni e stranezze a parte, colpisce quanto più facili siano stati gli altri tre percorsi fino alla semifinale rispetto a quello di Del Potro, che si è rivelato molto più arduo. Anche se scontiamo la difficoltà di battere Roger Federer – che Elo ritiene il miglior giocatore sul cemento al momento in attività pur non essendo a conoscenza dei suoi problemi fisici – il percorso di Del Potro è stato decisamente diverso da quello di Nadal e dei possibili finalisti.

Le “passeggiate” in contesto

Facilità di percorso fino alla semifinale di almeno il 69% sono estremamente rare. Anzi, i percorsi di Anderson, Carreno Busta e Nadal sono tra i dieci più facili degli ultimi trent’anni! La tabella elenca i dieci più facili percorsi precedenti a questi.

Anno  Slam              Semifinalista   Difficoltà percorso  
1989  Australian Open   Muster          84.1%  
1989  Australian Open   Mecir           74.2%  
1990  Australian Open   Lendl           73.8%  
2006  Roland Garros     Ljubicic        73.7%  
1988  Australian Open   Lendl           72.2%  
1988  Australian Open   Cash            70.1%  
2004  Australian Open   Ferrero         69.2%  
1996  US Open           Chang           68.8%  
1990  Roland Garros     Gomez           68.4%  
1996  Australian Open   Chang           66.2%

Nell’ultima decade, il più facile percorso fino alla semifinale è stato quello di Stanislas Wawrinka al Roland Garros 2016, con una probabilità di vittoria del 59.8%.

Il percorso di Del Potro fino alla semifinale non è così estremo, ma è decisamente difficile se lo si osserva in riferimento al passato. Dei circa 500 semifinalisti dal 1988, solo quindici hanno avuto un percorso più facile del suo 9.1%. La tabella elenca i dieci percorsi più facili.

Anno  Slam              Semifinalista   Difficoltà percorso  
2009  Roland Garros     Soderling       1.6%  
1988  Roland Garros     Svensson        1.9%  
2017  Wimbledon         Berdych         3.7%  
1996  Wimbledon         Krajicek        6.4%  
2011  Wimbledon         Tsonga          6.6%  
2012  US Open           Berdych         6.8%  
2017  Roland Garros     Thiem           6.9%  
2014  Australian Open   Wawrinka        7.0%  
1989  Roland Garros     Chang           7.1%  
2017  Wimbledon         Querrey         7.5%

Un’anteprima degli annali

Nel lungo periodo, saremo molto più interessati a sapere come il vincitore degli US Open 2017 abbia vinto il titolo di quanto sia riuscito a superare i primi cinque turni. Come abbiamo visto, tre dei quattro semifinalisti hanno avuto una facilità di percorso del 50% per la vittoria del titolo, vale a dire che un tipico vincitore di Slam avrebbe avuto una possibilità di circa 50/50 di battere questo specifico gruppo di sette avversari.

Nessun vincitore di Slam del recente passato l’ha avuta così facile. Il percorso di Nadal sarebbe il primo dei più facili negli ultimi trent’anni, mentre quello di Carreno Busta o di Anderson arriverebbero tra i primi cinque (se così dovesse essere, i valori precisi dipenderanno da chi affrontano in finale). La tabella riepiloga l’elenco dei giocatori che i tre semifinalisti hanno la possibilità di alterare.

Anno  Slam              Vincitore    Facilità percorso  
2002  Australian Open   Johansson    48.1%  
2001  Australian Open   Agassi       47.6%  
1999  Roland Garros     Agassi       45.6%  
2000  Wimbledon         Sampras      45.3%  
2006  Australian Open   Federer      44.5%  
1997  Australian Open   Sampras      44.4%  
2003  Australian Open   Agassi       43.9%  
1999  US Open           Agassi       41.5%  
2002  Wimbledon         Hewitt       39.9%  
1998  Wimbledon         Sampras      39.1%

Agli Australian Open 2006, Federer ha beneficiato della fortuna per una facilità di percorso simile a quella di Nadal agli US Open 2017. Il suo titolo a Wimbledon 2003 per poco non si inseriva nei primi dieci. In confronto, Novak Djokovic non ha mai vinto uno Slam senza aver dovuto compiere un percorso di facilità superiore a 18.7%, quindi più difficile di quello di più della metà dei vincitori di Slam.

Anche Nadal ha dovuto sudare (non solo figurativamente) per collezionare i 15 Slam del suo palmarès. La tabella elenca i primi dieci più difficili percorsi fino alla vittoria finale.

Anno  Slam              Vincitore    Facilità percorso  
2014  Australian Open   Wawrinka     2.2%  
2015  Roland Garros     Wawrinka     3.1%  
2016  Us Open           Wawrinka     3.2%  
2013  Roland Garros     Nadal        4.4%  
2014  Roland Garros     Nadal        4.7%  
1989  Roland Garros     Chang        5.0%  
2012  Roland Garros     Nadal        5.2%  
2016  Australian Open   Djokovic     5.4%  
2009  US Open           Del Potro    5.9%  
1990  Wimbledon         Edberg       6.2%

Come ho lasciato intendere nel titolo di questo articolo, se Nadal quest’anno, per il momento, è stato fortunato a New York, non è sempre andata così. Il suo nome compare tre volte in questa lista, avendo dovuto affrontare avversari più forti di qualsiasi altro vincitore Slam tranne Stanislas Wawrinka, il Davide che sconfigge i Golia.

Djokovic ha storicamente il percorso più impervio, ma anche Nadal ha dovuto darsi da fare

In media, i percorsi fino alla vittoria di Slam di Nadal non sono stati così impervi come quelli di Djokovic, ma rispetto a quelli di molti altri grandi dell’ultima decade, Nadal ha dovuto darsi parecchio da fare. La tabella riepiloga la difficoltà di percorso media per i giocatori con almeno tre Slam, dal 1988.

Giocatore  Slam da 1988  Facilità percorso media  
Wawrinka   3             2.8%  
Djokovic   12            11.3%  
Nadal      15            13.6%  
Edberg     4             14.6%  
Murray     3             18.8%  
Becker     4             18.8%  
Wilander   3             19.8%  
Kuerten    3             22.0%  
Federer    19            23.5%  
Courier    4             26.4%  
Sampras    14            28.9%  
Agassi     8             32.3%

Dovesse aggiungere anche gli US Open 2017 alla sua lista, la facilità di percorso medio di Nadal subirebbe un calo, ma comunque scenderebbe solo di un posto, dietro a Stefan Edberg. Dopo più di dieci anni di battaglie con giocatori tra i più forti di sempre negli ultimi turni di uno Slam, è onesto affermare che Nadal si è meritato questa passeggiata.

Quantifying Cakewalks, or The Time Rafa Finally Got Lucky

Per delle Chiavi del Match più semplici ed efficaci – Gemme degli US Open

di Jeff Sackmann // TennisAbstract

Pubblicato il 10 settembre 2013 – Traduzione di Edoardo Salvati

L’ottavo articolo della serie Gemme degli US Open.

Se avete seguito gli US Open 2013 o visitato il sito internet in qualsiasi momento delle ultime due settimane, non potete non aver notato la presenza di IBM. Loghi e inserzioni pubblicitarie erano ovunque, e anche altre fonti informative di solito affidabili non si sono tirate certamente indietro nel sottolineare le capacità statistiche di ultima generazione in possesso della società americana.

Analisi non proprio predittive

Particolarmente difficili da evitare sono state le “Chiavi del Match” (“Keys to the Match”) di IBM, tre indicatori a partita per giocatore. Il nome e la natura delle “chiavi” richiamano con decisione un certo potere predittivo: IBM definisce l’offerta statistica di tennis come “analisi predittiva” e non perde occasione per elogiare il database di 41 milioni di dati punto per punto di cui è proprietaria.

Eppure, come ha scritto Carl Bialik sul Wall Street Journal, non sono analisi così predittive.

Capita spesso di accorgersi che lo sconfitto ha raggiunto più obiettivi espressi dalle “chiavi” rispetto al vincitore, come è stato per la semifinale tra Novak Djokovic e Stanislas Wawrinka. Anche quando il vincitore ha catturato più chiavi, alcuni degli indicatori sono parsi quasi del tutto irrilevanti, come “giocare in media meno di 6.5 punti per game al servizio”, la chiave che Nadal non è riuscito a rispettare nella vittoria in finale.

Stando a un rappresentante di IBM, il gruppo di persone che lavora al progetto è alla ricerca di statistiche “inusuali”, e direi che ci sono riusciti. Il tennis però è un gioco semplice e, a meno di non spacchettare l’analisi ed evidenziare aspetti che nessun altro ha mai approfondito, ci sono solo alcune statistiche che contano davvero. Nella ricerca dell’inusuale, IBM ha lasciato indietro il predittivo.

IBM contro le “chiavi generiche”

IBM ha offerto le Chiavi del Match per 86 delle 127 partite di singolare maschile degli US Open 2013. In 20 di quelle partite, lo sconfitto ha raggiunto lo stesso numero o più chiavi di quelle raggiunte dal vincitore. In media, il vincitore di ciascuna partita ha raggiunto 1.13 chiavi in più dello sconfitto.

Si tratta della migliore prestazione di IBM per la stagione in corso. A Wimbledon 2015, i vincitori hanno raggiunto in media 1.02 chiavi in più degli sconfitti e, in 24 partite, lo sconfitto ha raggiunto lo stesso numero o più chiavi del vincitore. Al Roland Garros 2015, i numeri sono stati 0.98 e 21 partite, e agli Australian Open 2015 1.08 e 21 partite.

In assenza di parametri di riferimento, è difficile giudicare sulla bontà di questi numeri. Come ha fatto notare Bialik: “Forse il tennis è così complicato da analizzare che queste chiavi sono più efficaci di quanto chiunque altro potrebbe fare senza la montagna di dati di IBM e complessi modelli computerizzati”.

Non è così difficile. Anzi, i milioni di dati punto per punto e la ventina di statistiche “inusuali” di IBM sono la complicazione di ciò che potrebbe essere estremamente semplice.

Percentuale di punti vinti sulla prima e sulla seconda

Ho messo alla prova alcune statistiche di base per verificare se potessero esserci degli indicatori più diretti in grado di restituire risultati migliori di quelli di IBM (Bialik le definisce “chiavi di Sackmann”, ma le chiamerò “chiavi generiche”). È straordinaria la facilità con cui ho creato un gruppo di chiavi generiche che pareggiassero i numeri di IBM o facessero leggermente meglio.

Non stupisce che due delle statistiche più efficaci siano la percentuale di punti vinti sulla prima di servizio e sulla seconda di servizio. Ne parlerò in altri articoli, ma queste statistiche – e altre – mostrano sorprendente discontinuità. Vale a dire, esiste un chiaro livello al quale uno o due punti percentuali addizionali fanno una grande differenza per la probabilità di vittoria di un giocatore. Sono dettagli fatti apposta per essere incorporati nelle chiavi.

Percentuale di prime

Per la terza chiave, ho provato con la percentuale di prime di servizio, che non possiede un potere predittivo simile a quello delle due precedenti statistiche, ma il vantaggio di non avere con loro un’evidente correlazione. Un giocatore può avere un’alta percentuale di prime di servizio ma una bassa frequenza di punti vinti con la prima o con la seconda di servizio, e viceversa. E, contrariamente a certa saggezza popolare tennistica, non sembra esserci un livello alto di percentuale di prime di servizio oltre al quale altre prime in campo diventano un fattore negativo. Non è una relazione lineare, ma più prime di servizio rimangono dentro, maggiore è la probabilità di vittoria.

Mettendo tutto insieme, si ottengono tre chiavi generiche:

  • Percentuale di punti vinti sulla prima di servizio superiore al 74%
  • Percentuale di punti vinti sulla seconda di servizio superiore al 52%
  • Percentuale di prime di servizio superiore al 62%.

Sono percentuali che derivano dai risultati degli ultimi anni sul circuito maggiore per tutte le superfici a eccezione della terra battuta. Per semplicità, ho raggruppato l’erba, il cemento e il cemento indoor, anche se tenendole separate si potrebbe arrivare a indicatori leggermente più predittivi.

Nelle 86 partite degli US Open in cui erano disponibili le Chiavi del Match di IBM, le chiavi generiche hanno ottenuto risultati di poco superiori. Utilizzando i miei indicatori – gli stessi tre per ciascun giocatore – lo sconfitto ha raggiunto lo stesso numero o più chiavi del vincitore 16 volte (rispetto alle 20 di IBM) e il vincitore ha raggiunto in media 1.15 chiavi in più dello sconfitto (rispetto alle 1.13 di IBM). Per gli altri Slam, i risultati ottenuti sono simili (con soglie leggermente diverse per la terra battuta del Roland Garros).

Un pianeta più brillante

Non è casuale che la più semplice e più generica impostazione per la definizione di chiavi abbia restituito risultati migliori di quelli dati dall’attenzione di IBM per la complessità e gli aspetti inusuali. Aiuta anche il fatto che le chiavi generiche siano espressione di una conoscenza specializzata (per quanto rudimentale) del campo di applicazione in questione, mentre molte delle Chiavi del Match di IBM, come la velocità media della prima di servizio inferiore a un dato numero di km/h o la durata dei set misurata in minuti, siano invece espressione di ignoranza del campo di applicazione in questione.

Inoltre, commenti dei rappresentanti di IBM suggeriscono che il marketing sia più importante dell’accuratezza. L’articolo di Bialik ha citato le parole “Non è predittivo” di un esponente dell’azienda, nonostante i grandi e colorati cartelloni pubblicitari sparsi in tutto il complesso in cui si giocano gli US Open sostenessero esattamente il contrario. “Coinvolgimento” è il termine che continua a essere ripetuto come un mantra, anche se numeri inusuali che coinvolgono possono non aver nulla a che spartire con l’esito delle partite, e molto del coinvolgimento che ho visto negli appassionati è negativo.

Dopotutto, il vecchio adagio forse ha la sua ragion d’essere: fintantoché pronunciano correttamente il tuo nome, è tutta pubblicità positiva. E non è difficile pronunciare “IBM”.

Chiavi migliori, più consapevolezza

Offuscati dallo sforzo di marketing, è facile perdere di vista il fatto che l’idea delle chiavi di analisi di una partita sia effettivamente valida. I commentatori spesso parlano di raggiungere determinati traguardi, come ad esempio mettere il 70% delle prime. Per quanto ne sappia però, nessuno si è premunito di fare ricerche al riguardo.

Con le chiavi generiche come punto di partenza, potrebbe diventare un percorso molto più interessante. Anche se questi numeri sono dei buoni indicatori di prestazione sul cemento, sono suscettibili di ulteriori sviluppi, principalmente con aggiustamenti specifici per singolo giocatore.

Il 74% dei punti vinti sulla prima di servizio è funzionale con un giocatore alla risposta medio, ma con un giocatore alla risposta più scadente come John Isner? La sua percentuale di punti vinti sulla prima di servizio quest’anno è vicina al 79%, a suggerire che è per lui il numero di riferimento per battere la maggior parte degli avversari. Per altri invece potrebbe essere cruciale una frequenza più alta di prime di servizio. O ancora, le soglie di alcuni giocatori potrebbero subire ampie e nette variazioni in funzione della superficie.

Tornerò sul tema in articoli futuri, scendendo nel dettaglio di queste chiavi generiche e cercando di capire come possano essere migliorate. Fare meglio di IBM è gratificante, ma se l’obiettivo è davvero “un pianeta più brillante”, c’è ancora molta ricerca da portare avanti.

Simpler, Better Keys to the Match