Sulla scelta di una mina vagante a Wimbledon

di Chapel Heel // FirstBallIn

Pubblicato il 2 luglio 2017 – Traduzione di Edoardo Salvati

Solitamente, l’idea della mina vagante in un tabellone è quella di un giocatore che non ci si aspetta di veder vincere o, in atro tipo di formulazione, un giocatore che vince ma del quale si conosceva poco in precedenza. Applicate al tennis, diventano due diverse misure: la maggior parte delle persone non pensa che Grigor Dimitrov vincerà, ma non si può proprio dire che di lui si conosca poco. Inoltre, c’è il problema di capire quali attese siano considerate normali e quale sia il livello di conoscenza dello sport considerabile standard. Gli esperti probabilmente attribuiranno a Stanislas Wawrinka più probabilità di vincere Wimbledon di quanto non faccia lo spettatore occasionale, che invece potrebbe avere difficoltà a riconoscerlo anche in una foto segnaletica.

Per fare un termine di paragone, se si decide di scegliere come mina vagante nel torneo di basket collegiale americano NCAA una delle prime quattro teste di serie della relativa sezione o region, non si è veramente optato per una mina vagante. In riferimento al tabellone di Wimbledon, questo vorrebbe dire che nessuna delle prime sedici teste di serie può essere una mina vagante. O ancora, rispetto al campo partecipanti (16 squadre delle 64 del torneo NCAA), nessuna delle prime trentadue teste di serie sarebbe considerabile una mina vagante (25% di 128 giocatori).

Questa regola quindi non può funzionare per il tennis. Se Lucas Pouille, testa di serie numero 14, vincesse Wimbledon, sarebbe senza dubbio un risultato sconvolgente ma – utilizzando le teste di serie del torneo NCAA come standard – non rientrerebbe nella definizione di mina vagante. Sarebbe però facilmente identificabile come giocatore da cui non ci si aspettava vincesse e forse anche uno del quale si conosceva poco in precedenza.

È più probabile che sul concetto di mina vagante per il torneo NCAA incidano i mini tornei che sono le quattro singole region, quindi in verità le mine vaganti sono le squadre con testa di serie dalla 5 in avanti in una sezione, escludendo di fatto dalla definizione solo le prime quattro teste di serie. Nel tennis, questo renderebbe Wawrinka una mina vagante, alquanto strano considerando che è l’unico giocatore dopo i Fantastici Quattro che si pensa possa avere una possibilità di vittoria finale in uno Slam. Ci sono persone che si aspettano davvero che Wawrinka possa vincere Wimbledon? Gli allibratori di Las Vegas pesano abbia solo il 3% di probabilità (Wawrinka è già uscito dal torneo perdendo al primo turno, n.d.t.). C’erano poche squadre (ad esempio Wichita State e St. Mary’s) ad avere una probabilità del 3% nel torneo NCAA 2017. E cosa penserebbe lo spettatore medio sulle probabilità di Wawrinka?

Invece di usare i numeri delle teste di serie, ho pensato che sarebbe interessante verificare la percentuale cumulativa di vittoria attesa per le prime sedici teste di serie del torneo NCAA 2017. Ho riguardato quindi le valutazioni di KenPom per le teste di serie alla numero 1 alla numero 4 e verificato i suoi pronostici. Complessivamente, le squadre a cui poi sono state attribuite le prime sedici teste di serie avevano una probabilità di circa l’80% di vincere il torneo. Ricordo (e si potrebbe verificare su Google) che le quote di Las Vegas erano nello stesso intorno.

Ipotizziamo quindi di sommare la percentuale di vittoria attesa per ciascuna testa di serie a Wimbledon fino a raggiungere l’80%, e di considerare qualsiasi giocatore fuori da quell’insieme una mina vagante. Inizio con le quote di Las Vegas, utilizzando le medie da OddsPortal.com e ipotizzando una commissione del 4.5%. Superiamo il limite dell’80% con Rafael Nadal, che significa che le teste di serie dalla numero 5 in avanti – iniziando proprio da Wawrinka – sono considerabili una mina vagante.

Proviamo ora con le previsioni di TennisAbstract. In questo caso, il limite dell’80% è superato ancora più velocemente, con Roger Federer, aspetto che renderebbe Nadal una mina vagante. TennisAbstract assegna a Nadal una percentuale di vittoria del 4.2%, Las Vegas pensa che sia il 17%, per me è al 5.5%.

Con le mie previsioni, supereremmo il limite dell’80% con Nadal, rendendo quindi nuovamente Wawrinka una mina vagante. Las Vegas gli assegna un 3%, per me ha solo l’1.2% (abbiamo appunto visto che Wawrinka è poi uscito al primo turno, n.d.t.). Siamo nell’ordine di Cincinnati o Michigan nel torneo NCAA 2017, con Michigan che si è comportata egregiamente da mina vagante fino agli ultimi secondi dello Sweet Sixteen, cioè le partite di ottavi di finale.

Invece delle teste di serie, potremmo procedere a spuntare i singoli favoriti a partire dall’alto secondo le quote di Las Vegas, ma Wawrinka comunque manterrebbe il suo status di mina vagante. Se usassimo l’85% come limite anziché l’80%, sia il taglio di Las Vegas che quello generato dai miei pronostici arriverebbe intorno a Milos Raonic, rendendo Marin Cilic e Dominic Thiem mine vaganti del tabellone. Penso che entrambi possano consensualmente rientrare nella definizione “non ci si attende che vincano”. Le quote di Las Vegas e altri esperti non gli affidano molte probabilità di vincere e lo spettatore medio raramente ha sentito parlare di loro. Recentemente un super patito di tennis mi ha chiesto se conoscessi un giovane giocatore chiamato “Time”, mentre un altro nel posto in cui gioco a tennis spesso si riferisce alla testa di serie numero 10 con “Zuh-VAIR-uh-vev” (che a ben vedere è molto più difficile da pronunciare del suo vero nome). È interessante notare che con un limite di 85% e procedendo a spuntare i favoriti secondo le quote di Las Vegas, invece che procedendo in funzione delle teste di serie, si escluderebbe Cilic dallo status di mina vagante, mentre rientrerebbero Raonic e Wawrinka!

Ho deciso quindi di introdurre una formulazione per la quale tutti i seguenti criteri devono essere soddisfatti:

  1. lo spettatore medio non deve avere familiarità del giocatore; in questo senso conta l’errata pronuncia del nome, la non conoscenza della nazione di provenienza, e gli sguardi impietriti nelle conversazioni quando ci si riferisce a lui
  2. i pronostici, tra cui quelli di Las Vegas, non devono dare in generale più del 5% di probabilità di vittoria al giocatore
  3. il giocatore non deve rientrare nel primo 85% di probabilità di vittoria, partendo dalla probabilità delle prime teste di serie e in funzione delle quote di Las Vegas o di altri pronostici ragionevolmente attendibili.

La mia mina vagante? I miei pronostici direbbero Kei Nishikori con il 3.1% (Las Vegas lo considera da 1.1%), ma scelgo Jo-Wilfried Tsonga con il 2.6% (Las Vegas lo considera da 1.4%).

Picking a Wimbledon Dark Horse

Una misurazione dell’incidenza della formula per assegnare le teste di serie a Wimbledon

di Jeff Sackmann // TennisAbstract

Pubblicato il 27 giugno 2017 – Traduzione di Edoardo Salvati

A differenza di tutti gli altri tornei del calendario, per assegnare le teste di serie Wimbledon utilizza una formula proprietaria: garantisce ai primi 32 delle classifiche del circuito maschile e femminile la testa di serie, riordinandole poi in funzione del suo algoritmo che premia giocatori e giocatrici per il loro rendimento sull’erba nelle due stagioni passate.

Quest’anno, la formula di Wimbledon ha un’incidenza più significativa del solito. Il sette volte campione Roger Federer è uno dei giocatori più forti di sempre sull’erba e, sebbene abbia dominato sul cemento all’inizio del 2017, è ancora fuori dai primi 4 della classifica ATP, non avendo giocato nella seconda parte del 2016. Grazie alla procedura adottata da Wimbledon, Federer scambia la sua posizione con quella di Stanislas Wawrinka e riceve la testa di serie numero 3.

Anche di fronte alle prestazioni non esaltanti di Wawrinka sull’erba e allo stato di forma discutibile di Andy Murray e Novak Djokovic, entrare tra i primi 4 è fonte di benefici. Se tutte le teste di serie avanzano nei primi quattro turni (e non lo faranno, ma seguite il ragionamento), la testa di serie numero 5 dovrà affrontare un cammino verso il titolo che la obbliga a sconfiggere tre dei primi 4 giocatori. Lo stesso percorso spetterà al giocatore dei primi 4 che troverà la testa di serie numero 5 nel suo quarto, ma gli altri tre avranno vita più facile. Prima che i giocatori vengano disposti nel tabellone, le prime quattro teste di serie hanno il 75% di probabilità di quel percorso più facile.

Verifichiamo queste supposizioni con qualche numero. Sono interessato a conoscere l’incidenza sul tabellone di tre diverse metodologie di assegnazione delle teste di serie: la classifica ATP (come avviene per tutti i tornei), la formula di Wimbledon e la ponderazione del sistema Elo specifico per l’erba. Come ho descritto in precedenza, le valutazioni Elo specifiche per superficie e ponderate, quindi ottenute da una media tra Elo specifico per superficie e Elo complessivo – hanno maggiore potere predittivo della classifica ATP, di Elo specifico per superficie e di Elo complessivo. Inoltre, Elo su erba ponderato – che chiameremo gElo – ha capacità predittiva altrettanto attendibile di Elo per il cemento e per la terra, anche se sull’erba ci sono meno dati a disposizione. In un mondo fatto solo di analisti di tennis, le teste di serie verrebbero assegnate con un sistema che richiama molto più le valutazioni gElo che l’algoritmo utilizzato dall’ATP.

È per questo che ci affidiamo a gElo per studiare gli effetti delle diverse modalità di assegnazione delle teste di serie. La tabella riepiloga le valutazioni gElo per i primi 16, comprensive dei risultati di Halle e del Queen’s Club.

Pos.  Giocatore   gElo
1     Djokovic    2296.5  
2     Murray      2247.6  
3     Federer     2246.8  
4     Nadal       2101.4  
5     Del Potro   2037.5  
6     Nishikori   2035.9  
7     Raonic      2029.4  
8     Tsonga      2020.2  
9     Zverev      2010.2  
10    Cilic       1997.7  
11    Kyrgios     1967.7  
12    Berdych     1967.0  
13    Muller      1958.2  
14    Gasquet     1953.4  
15    Wawrinka    1952.8  
16    Lopez       1945.3

Alcune posizioni possono generare dei dubbi – del resto l’algoritmo ignora l’esistenza dei problemi che sembrano influenzare il rendimento di Djokovic ad esempio – ma in generale gElo è il sistema migliore per rappresentare la bravura di un giocatore su quella determinata superficie.

I pronostici

Come passo successivo, costruiamo un ipotetico tabellone di 128 giocatori e procediamo con le simulazioni, ne servono in grandissimo numero. Utilizzo i primi 128 della classifica – escludendo i ritiri sicuri come quelli di David Goffin e Pablo Carreno Busta – che non sono troppo diversi dai giocatori che effettivamente parteciperanno a Wimbledon. A questo punto, per ogni metodologia, si generano un centinaio di migliaia di simulazioni del tabellone, delle conseguenti partite per ogni sezione e se ne sommano i vincitori.

La tabella riepiloga i primi 10 giocatori e la loro probabilità di vittoria a Wimbledon rispetto alle tre differenti metodologie di assegnazione delle teste di serie:

Giocatore  ATP  V%      Wimb  V%      gElo  V%  
Murray     1    23.6%   1     24.3%   2     24.1%  
Nadal      2    6.1%    4     5.7%    4     5.5%  
Wawrinka   3    0.8%    5     0.5%    15    0.4%  
Djokovic   4    34.1%   2     35.4%   1     34.8%  
Federer    5    21.1%   3     22.4%   3     22.4%  
Cilic      6    1.3%    7     1.0%    10    1.0%  
Raonic     7    2.0%    6     1.6%    7     1.7%  
Thiem      8    0.4%    8     0.3%    17    0.2%  
Nishikori  9    1.9%    9     1.7%    6     1.9%  
Tsonga     10   1.6%    12    1.4%    8     1.5%

Ancora una volta gElo sembrerebbe troppo ottimista nei confronti di Djokovic – o almeno è quello che pensano gli allibratori – ma l’elemento da considerare qui sono le differenze tra sistemi. Federer riceve una leggera spinta per essere entrato tra le prime quattro teste di serie e Wawrinka – che non è proprio il preferito di gElo – perde una buona fetta delle sue già modeste speranze dopo essere uscito dai primi 4.

L’incidenza delle teste di serie è molto più importante se si considera la probabilità di vittoria relativa alle semifinali anziché alla vittoria del torneo, come riepilogato dalla tabella.

Giocatore  ATP  V%      Wimb  V%      gElo  V%  
Murray     1    23.6%   1     24.3%   2     24.1%  
Nadal      2    6.1%    4     5.7%    4     5.5%  
Wawrinka   3    0.8%    5     0.5%    15    0.4%  
Djokovic   4    34.1%   2     35.4%   1     34.8%  
Federer    5    21.1%   3     22.4%   3     22.4%  
Cilic      6    1.3%    7     1.0%    10    1.0%  
Raonic     7    2.0%    6     1.6%    7     1.7%  
Thiem      8    0.4%    8     0.3%    17    0.2%  
Nishikori  9    1.9%    9     1.7%    6     1.9%  
Tsonga     10   1.6%    12    1.4%    8     1.5%

In questo caso assistiamo a maggiori differenze per i giocatori di vertice in funzione del sistema di assegnazione considerato. Non solo la probabilità di Federer di raggiungere la semifinale sale dal 50 al 64% facendo il suo ingresso nei primi 4, ma anche Djokovic e Murray vedono la loro probabilità aumentare perché Federer non è più un possibile avversario nei quarti di finale. Da sottolineare nuovamente che l’effetto negativo più ampio ricade sempre su Wawrinka: una testa di serie tra le prime quattro avrebbe protetto un giocatore che non è destinato a fare troppa strada sull’erba.

Curiosamente, sono quasi solo i Fantastici Quattro tra le 32 teste di serie a beneficiare dell’algoritmo di Wimbledon. Eliminando la possibilità che Federer rientri nel quarto, ad esempio, di Murray, la formula di Wimbledon rende molto meno probabile la circostanza di un semifinalista a sorpresa. La probabilità di Tomas Berdych di arrivare in semifinale aumenta di poco, dall’8 al 8.4% con la testa di serie numero 11 che corrisponde alla sua classifica numero 13, ma la probabilità per le altre 27 teste di serie di raggiungere la semifinale diminuisce rispetto a quella che avrebbero avuto se anche Wimbledon utilizzasse la classifica ufficiale.

Siamo di fronte all’inatteso effetto collaterale che deriva dalla giusta configurazione tra classifica e assegnazione delle teste di serie: si riduce la probabilità che giocatori fuori pronostico arrivino alle fasi finali della competizione. È un impatto simile all’introduzione delle 32 teste di serie negli Slam anziché le 16: proteggendo i migliori (e i migliori dopo i migliori, cioè i giocatori dalla testa di serie 17 alla 32) in modo che non giochino subito uno contro l’altro, gli organizzatori del torneo impongono ai giocatori non teste di serie di percorrere una strada molto più ardua. Rimuovendo Wawrinka dalle prime quattro teste di serie, l’algoritmo di Wimbledon ha evitato un potenziale serio risultato a sorpresa, aumentando però contestualmente la probabilità di assistere alle semifinali che tutti aspettano di vedere tra i migliori giocatori sull’erba del mondo.

Measuring the Impact of Wimbledon’s Seeding Formula

Il curioso caso di Stanislas Wawrinka

di Chapel Heel // FirstBallIn

Pubblicato il 9 giugno 2017 – Traduzione di Edoardo Salvati

Per calcolare la probabilità di vittoria di un giocatore, utilizzo un sistema basato sulle statistiche della singola partita. In generale, funziona con buona precisione, anche se non ne è l’unico sistema di cui mi servo. Ma, quando si tratta di Stanislas Wawrinka, ci sono dei problemi, perché viene continuamente sottovalutato.

Se un sistema funziona con buona precisione tranne che per qualche eccezione, mi aspetterei che quelle eccezioni fossero da far risalire allo stile di gioco. Ad esempio, se il sistema non funzionasse bene con giocatori come John Isner, Milos Raonic e Ivo Karlovic, riuscirei a comprenderne facilmente il motivo. Eppure, sembra andare bene per loro, ma non per Wawrinka.

Sono convinto che Wawrinka faccia qualcosa che le sue statistiche di partita aggregate non mostrino, perché credo che nessuno possa obiettare il fatto che sia uno dei migliori cinque giocatori al mondo dal 2014, pur essendo rimasto fuori per qualche ragione dal gruppo dei Fantastici Quattro.

Per chiarire il concetto, ho analizzato i giocatori che dal 2014 sono rimasti continuativamente nei primi 25 della classifica. Si tratta un gruppo molto elitario: Tomas Berdych, Novak Djokovic, Roger Federer, Andy Murray, Rafael Nadal, Kei Nishikori, Raonic, Jo Wilfried Tsonga e appunto Wawrinka. Siccome volevo un insieme di almeno dieci giocatori e siccome un paio sono rimasti fuori per pochissimo, ho aggiunto Isner (un mese in classifica tra il numero 26 e il 28) e Richard Gasquet (due mesi tra il 26 e il 27).

Sulla base delle statistiche partita per partita dal 2014, le tabelle che seguono mostrano la posizione di Wawrinka in questo insieme di undici giocatori rispetto ad alcune categorie di analisi. Sono tutte statistiche ponderate per il numero di game giocati al servizio, e non includono il Roland Garros 2017.

Wawrinka è al settimo posto per punti vinti al servizio (A). Se considerato isolatamente, tenere il proprio servizio non ha troppo significato se non riesci mai a fare un break al tuo avversario (ad esempio con Isner) o se invece sei bravo a impedire al tuo avversario di vincere il suo servizio (ad esempio Nishikori). La tabella riepiloga, per ogni giocatore, le percentuali di punti al servizio degli avversari.

Wawrinka è ottavo nell’impedire al proprio avversario di vincere punti al servizio (B). Non è sorprendente, vista la sua tendenza a bloccare il colpo in risposta.

Quale sia il significato di questi numeri, per la maggior parte delle analisi la percentuale effettiva dei punti vinti al servizio o la percentuale effettiva dei punti vinti al servizio dall’avversario non sono sono così importanti nella previsione dell’esito di una partita come la differenza tra la percentuale di punti vinti al servizio da un giocatore e la stessa percentuale dell’avversario. La tabella sulla destra mostra i risultati per questo tipo di calcolo [(A) – (B)].

I Fantastici Quattro sono ai primi quattro posti della classifica. Wawrinka? Beh…è al decimo posto!

Fino a questo momento Wawrinka si posiziona sempre nella parte bassa di queste classifiche, e comunque sempre dietro a Berdych (e forse questo dice qualcosa anche sul rendimento di Berdych).

Forse è una questione di tempismo, forse Wawrinka non riesce a impedire ai suoi avversari di vincere un numero straordinario di punti al servizio, ma riesce a impedirlo nelle giuste situazioni. Questo dovrebbe avere evidenza nella sua capacità di trasformare palle break, come mostrato dalla tabella a sinistra.

E invece no, sempre nella parte bassa della classifica.

Allora forse Wawrinka si trova ad affrontare avversari generalmente più modesti di quelli dei Fantastici Quattro, visto che gioca più spesso partite di tornei 250. In altre parole, si nutre di un livello competitivo inferiore e gioca sufficientemente bene per vincere. Ci aspetteremmo di vedere traccia di questo nella percentuale di punti vinti al servizio o nella percentuale di punti vinti al servizio dai suoi avversari, ma forse non è così. La tabella di destra mostra la media ponderata della classifica degli avversari affrontati da ciascun giocatore dal 2014.

In generale, Wawrinka non affronta un livello di competizione più basso, perché in questo caso è al quarto posto.

Riepilogando, Wawrinka non è nella parte alta della classifica nella percentuale di punti vinti al servizio, nella percentuale di punti vinti al servizio dal suo avversario, nella differenza tra i due precedenti valori o nella percentuale di palle break trasformate, ma è tra i primi solo per livello di bravura medio degli avversari affrontati. Come è possibile quindi che sia tra i Grandi Cinque?

La tabella sottostante riepiloga le percentuali effettive di vittoria di questi giocatori dal 2014. I valori della colonna ‘Vittorie Pitagoriche %’ sono ottenuti applicando una formula pitagorica (nello stile di Bill James) alla percentuale di punti vinti al servizio e alla percentuale di punti vinti al servizio dall’avversario con un esponente 10, che in generale è una buona approssimazione delle percentuali di vittoria del circuito maschile.

La colonna “Differenza Pitagorica” indica quanto un giocatore abbia fatto meglio (in positivo) o peggio (in negativo) della sua percentuale di vittorie pitagoriche. Come misura alternativa, ho utilizzato anche un modello di Markov con le percentuali di punti vinti al servizio e punti vinti al servizio dall’avversario per una stima delle percentuali di vittoria (in questo caso nell’ipotesi di partite al meglio dei 3 set con il tiebreak al set decisivo). La colonna ‘Differenza Markov’ indica quanto un giocatore abbia fatto meglio (in positivo) o peggio (in negativo) della sua probabilità attesa di Markov.

Wawrinka si posiziona al sesto posto in termini di percentuale di vittorie effettive, al decimo posto come percentuale di vittorie pitagoriche e sempre al decimo posto come percentuale di vittorie Markov. Non sorprende dunque che la sua Differenza Pitagorica e la Differenza Markov siano al primo posto in questo elenco di giocatori, vale a dire che Wawrinka fa meglio di entrambe queste misurazioni delle attese. Anche se la formula pitagorica tende a pronosticare questo gruppo in difetto di circa il 2%, Wawrinka è di gran lunga avanti nell’ottenere risultati migliori delle previsioni pitagoriche. Allo stesso modo, anche se il modello di Markov tende a pronosticare questo gruppo in eccesso di circa il 3%, Wawrinka è uno dei tre giocatori a ottenere risultati migliori delle previsioni di Markov.

Ho analizzato i risultati di Wawrinka con altre categorie, come la superficie (riesce meglio delle attese sul cemento che sulla terra), la categoria di torneo (fa leggermente peggio delle attese nei 250) e il turno giocato (fa leggermente peggio delle attese nei quarti e nelle semifinali, fa molto meglio delle attese in finale). Si potrebbe pensare che Wawrinka alzi il suo livello di gioco sul cemento e nei tornei più importanti, soprattutto se arriva in finale. Però, la sua percentuale di vittorie al Roland Garros è altrettanto buona che agli Australian Open e agli US Open. Inoltre, il suo punto a sfavore è sempre stata la prestazione nei tornei Masters, nei quali i suoi risultati non sono paragonabili a quelli dei Fantastici Quattro.

In una precedente tabella, ho mostrato che la media ponderata della classifica degli avversari di Wawrinka era nella parte alta dell’elenco. È possibile naturalmente che demolisca gli avversari più deboli nei primi turni per alzare la sua probabilità di vittoria al di sopra delle attese. Verifichiamo quest’assunto, sulla base delle categorie viste in precedenza ma rispetto alle fasce di classifica effettiva dei suoi avversari.

Ci sono dei numeri strani in questa tabella. Wawrinka effettivamente demolisce gli avversari più deboli in modo sproporzionato rispetto alle attese, anche se non gioca particolarmente bene quelle partite. Allo stesso tempo supera in larga misura le attese nei confronti dei primi 10.

I suoi valori agli estremi della curva contro i primi 10 non sono così buoni, eppure è riuscito a batterli con una frequenza del 54%, nonostante una differenza negativa dello 0.030 tra la percentuale di punti vinti al servizio e la percentuale di punti vinti al servizio dagli avversari nelle 39 partite giocate. Anzi, ha quattro vittorie contro i primi 10 nelle quali la sua percentuale di punti vinti al servizio era inferiore della percentuale di punti vinti al servizio dall’avversario, e non di poco (il 65.9% contro il 69.9%). Si tratta di quasi il 20% delle sue vittorie contro i primi 10. Per avere un termine di paragone, Murray ha una sola vittoria con differenziale negativo (cioè il 3% delle sue vittorie contro i primi 10), Djokovic ne ha due (3%), Nadal neanche una e Federer una (3%).

Cosa significa tutto questo (se significa qualcosa)? Non ne sono del tutto certo, ma sembra che (a) giochi sufficientemente bene per vincere contro giocatori di più bassa classifica e (b) è in grado di alzare mentalmente il livello contro i giocatori di vertice nei momenti che contano.

Viene da chiedersi, Wawrinka è un giocatore migliore nei momenti chiave? Per trovare una risposta servirebbero dati molto più specifici di quelli che possiedo, e molti di coloro che hanno approfondito il tema in vari sport non hanno trovato un effetto “momenti chiave” sostanziale.

Vi lascio con un’ulteriore riflessione. Abbiamo visto prima che Wawrinka converte il 38.7% delle palle break, una percentuale che gli vale l’ottavo posto tra gli undici giocatori del campione. Contro i primi 10, la sua percentuale sale al 41.6%, cioè la terza assoluta, inferiore solamente a quella di Djokovic e Murray.

The Curious Case Of Stanislas Wawrinka

Simona Halep e le rimonte dopo aver annullato uno o più match point

di Jeff Sackmann // TennisAbstract

Pubblicato l’8 giugno 2017 – Traduzione di Edoardo Salvati

Durante il quarto di finale al Roland Garros 2017 tra Elina Svitolina e Simona Halep, Svitolina è arrivata ad avere un vantaggio insormontabile di 6-3 5-1. In quel momento, le sue probabilità di vittoria erano – a seconda dei numeri utilizzati per il calcolo – tra il 97 e il 99%. Halep ha però poi rimontato fino al 5-5, e nel tiebreak del secondo set Svitolina si è ritrovata sul 6-5, a un punto dalla partita. Halep ha annullato il match point, vinto il tiebreak e chiuso con facilità 6-0 al terzo.

È facile trovare una storia per una sequenza di eventi come questa: dopo aver gettato due importanti situazioni di vantaggio, Svitolina si è smarrita e la vittoria del terzo da parte di Halep era praticamente una formalità. Forse è andata proprio così. È impossibile verificarlo sulla base di una sola partita, ma non è esattamente la prima volta in cui una giocatrice non è riuscita a chiudere la partita ed è dovuta ripartire da zero nel terzo set.

Anche senza un match point annullato, la giocatrice che vince il secondo set ha un leggero vantaggio all’inizio del terzo. Nelle partite di singolare femminile Slam di più degli ultimi sei anni, la giocatrice che ha vinto il secondo set ha poi vinto anche il terzo il 51.3% delle volte. Se invece il secondo set è terminato al tiebreak, la vincitrice ha poi vinto il terzo set il 43.7% delle volte. Anche se può sembrare controintuitivo, rifacciamoci alle nostre conoscenze su quel tipo di set. La vincitrice del secondo set è riuscita a vincerlo a fatica (al tiebreak), mentre la sua avversaria, spesso, ha vinto il primo set più largamente. Il vantaggio psicologico è di aiuto, ma da solo non è in grado di compensare l’eventuale ampia differenza in termini di bravura.

Esaminiamo più da vicino il caso specifico dei match point salvati nel secondo set. Grazie ai dati resi disponibili da IBM sui siti internet degli Slam tramite Pointstream, abbiamo la successione punto per punto della maggior parte delle partite di singolare Slam dal 2011 (solitamente quelle mancanti sono le partite giocate su campi dove non è previsto il sistema di moviola Hawk-Eye e su alcuni dei campi più piccoli del Roland Garros). Si tratta di più di 2600 partite. In poco più di 1700, una delle due giocatrici ha avuto un match point nel secondo set. Più del 97% delle volte, la giocatrice poi è riuscita a vincere la partita – avendo bisogno in media di 1.7 match point – evitando di dover giocare il set decisivo.

Rimangono quindi 45 partite in cui una giocatrice ha avuto un match point nel secondo set non sfruttato ed è stata costretta ad andare al terzo set. È un campione ridotto e non spiega a tutti gli effetti la sequenza di eventi vista in precedenza, con un crollo nel set finale. Il 60% delle volte – vale a dire 27 partite delle 45 – la giocatrice che non è riuscita a chiudere con il match point nel secondo set, come Svitolina, ha poi perso anche il terzo set, con un punteggio in molti casi netto: in 5 delle 27 partite si è verificato un 6-0 (compreso il quarto di finale con Halep) e il punteggio medio è stato 6-2. Mai un terzo set è andato oltre 6-4.

Anche nelle altre 18 partite – cioè il 40% delle volte in cui la giocatrice con il match point non sfruttato al secondo set si è poi ripresa vincendo il terzo – ci sono stati set piuttosto a senso unico. Infatti, la giocatrice che ha poi perso il terzo set è riuscita a fare in media solo 2.3 game, e anche qui mai meglio di 6-4.

Di fronte a così poche partite, non sembra ragionevole concludere che un margine 60/40 possa essere considerato una legge universale nel tennis. Tuttavia, rappresenta una prova del fatto che le giocatrici non necessariamente crollano dopo aver mancato un match point per una vittoria in due set. Non vi è certezza che quello che è successo a Svitolina possa accadere di nuovo nella prossima partita.

Simona Halep and Recoveries From Match Point Down

Sui punti più importanti, i colpi si accorciano

di Jeff Sackmann // TennisAbstract

Pubblicato il 2 giugno 2017 – Traduzione di Edoardo Salvati

Nonostante il nome, gli errori non forzati possono avere un lato positivo. In alcune partite, la giusta tattica prevede un gioco più aggressivo e, per colpire più vincenti, la maggior parte delle giocatrici (o giocatori) commette anche più errori. Contro alcuni avversari, aumentare il conto dei non forzati – sempre bilanciato da un incremento nei vincenti o in altri colpi a chiusura favorevole del punto – potrebbe essere l’unico modo per vincere.

La settimana scorsa, ho mostrato che uno dei motivi dell’uscita al primo turno di Angelique Kerber al Roland Garros 2017 è stato il numero inusitato di errori nei momenti più importanti. Come sottolineato da Carl Bialik nel nostro ultimo podcast, non è però tutto qui. Se Kerber infatti avesse giocato in modo più aggressivo nei punti più importanti – una delle possibili cause per l’aumento del numero di errori – anche la sua frequenza di vincenti sarebbe potuta essere più alta. Con un punteggio di 6-2 6-2 in suo sfavore, è difficile pensare che Kerber abbia realizzato più vincenti di non forzati, come infatti non è stato. L’ipotesi di Bialik rimane però valida e vale la pena di sottoporla all’esame numerico.

Per farlo, ricapitoliamo i dati a disposizione: 500 partite di singolare femminile degli ultimi quattro Slam e le partite dei primi quattro turni del Roland Garros 2017. Misurando l’importanza di ciascun punto, siamo in grado di determinare la leva (LEV) media di ogni punto in ogni partita, insieme alla LEV media dei punti che sono terminati con un errore non forzato o con un vincente. Nell’analisi precedente, ho trovato che gli errori non forzati di Kerber nella sua sconfitta al primo turno avevano una LEV media del 5.5%, rispetto a una LEV del 3.8% di tutti gli altri punti. Per lo scopo di questa analisi, utilizziamo la LEV media come parametri di riferimento: la LEV media di 5.5% degli errori non forzati risulta essere maggiore anche della LEV media del 4.1% di tutta la partita.

Per quanto riguarda i vincenti? I 15 vincenti di Kerber sono arrivati su punti con una LEV media del 3.9%, inferiore alla media della partita. Il caso è dunque chiuso: sui punti più importanti, Kerber aveva più probabilità di commettere un errore e meno probabilità di colpire un vincente.

Sull’intero campione, le giocatrici commettono più errori e tirano meno vincenti nei momenti cruciali, ma solo in misura lieve. I punti che terminano con un errore sono circa l’1% più importanti della media (in percentuale e non in termini di punti percentuali, quindi 4.14% invece di 4.1%), mentre i punti che terminano con un vincente sono circa il 2% meno importanti della media. Nei momenti più significativi, le giocatrici aumentano la frequenza dei vincenti circa il 39% delle volte, e migliorano il rapporto vincenti su non forzati circa il 45% delle volte. Questo a dire che si osserva un effetto a livello di circuito sui punti più importanti, ma di ordine piuttosto ridotto.

Naturalmente, la sconfitta di Kerber al primo turno non è indicativa del modo in cui ha giocato, in generale, negli Slam. Nell’articolo della settimana scorsa, ho citato le quattro giocatrici che sono meglio riuscite a ridurre gli errori nei punti più importanti: Kerber, Agnieszka Radwanska, Timea Bacsinszky, e Kiki Bertens. Sia Kerber che Radwanska hanno colpito meno vincenti sui punti importanti, ma Bacsinszky e Bertens hanno trovato la giusta combinazione, colpendo qualche vincente in più all’aumentare della pressione. Tra le giocatrici con più di 10 partite Slam giocate dal Roland Garros 2016, Bacsinszky è l’unica a colpire sui punti più importanti un numero maggiore di vincenti rispetto a non forzati più del 75% delle volte.

Rispetto alle sue colleghe, la tattica di Kerber nei momenti che più contano è incredibilmente passiva. La tabella riepiloga le 21 giocatrici per cui ho a disposizione dati su almeno 13 partite. La colonna “Ind NF” (indice errori non forzati) è simile alla statistica usata in precedenza, e mette a confronto l’importanza media dei punti che terminano con errori con i punti medi: la colonna “Ind V” (indice vincenti) esprime lo stesso rapporto, ma per i punti che terminano con vincenti, e la colonna “In V+NF” si riferisce – si può immaginare – a una combinazione (ponderata) dei due valori, che serve come estrema approssimazione di una tattica aggressiva sui punti importanti, per la quale valori inferiori a 1 indicano un approccio più passivo di quello tipico di una giocatrice e valori superiori a 1 il contrario.

Giocatrice      Partite  Ind NF  Ind V  Ind V+NF   
Kerber          20       0.92    0.85   0.88  
Cornet          13       0.92    0.87   0.94  
Radwanska       17       0.91    0.95   0.95  
Halep           19       0.93    0.94   0.95  
Stosur          13       0.95    0.98   0.96  
Bacsinszky      14       0.89    1.02   0.97  
Svitolina       15       1.02    0.95   0.97  
Pliskova        18       0.97    0.98   0.97  
Wozniacki       14       0.93    1.00   0.97  
Konta           13       1.00    0.97   0.98  
Garcia          14       0.94    1.02   0.98  
Kuznetsova      17       0.96    0.98   0.99  
Muguruza        20       1.02    0.94   0.99  
V. Williams     25       1.00    0.97   0.99  
Vesnina         13       0.96    1.03   0.99  
Pavlyuchenkova  15       1.03    0.99   0.99  
Vandeweghe      13       1.08    0.95   1.01  
Keys            13       1.01    1.02   1.01  
S. Williams     27       0.99    1.05   1.02  
Suarez Navarro  14       1.00    1.14   1.05  
Cibulkova       14       1.11    1.03   1.07

Il valore combinato di Kerber la separa dal resto del gruppo. I suoi colpi a chiusura del punto – sia vincenti che errori, ma specialmente vincenti – si verificano sproporzionatamente sui punti meno importanti, e l’effetto complessivo ha un valore doppio di quello di Alize Cornet, la giocatrice immediatamente dietro Kerber in quanto a passività nei momenti più importanti. Tutte le altre giocatrici ottengono valori così vicini alla neutralità (valore 1), che eviterei di trarre qualsiasi conclusione sulla loro tattica nei punti a maggiore pressione.

Anche quando Kerber vince, ci riesce con un’efficace fase di difesa nei punti chiave. Nelle ultime 20 partite Slam, solo in due occasioni ha colpito vincenti su punti particolarmente importanti (casualmente, una di queste due partite è stata la finale degli US Open 2016). In generale, il suo stile di gioco più passivo funziona e le ha permesso di vincere 16 delle partite considerate. Ma un tennis basato sulla difesa non lascia troppo spazio per errori, metaforicamente e letteralmente. Nonostante fosse una tattica da tempo codificata, una scarsa esecuzione le è costata la sconfitta contro Makarova.

Smaller Swings In Big Moments

Gli errori non forzati e nei momenti sbagliati di Angelique Kerber

di Jeff Sackmann // TennisAbstract

Pubblicato l’1 giugno 2017 – Traduzione di Edoardo Salvati

Non è un anno facile per Angelique Kerber. Nonostante il primo posto della classifica mondiale e la testa di serie numero 1 nel tabellone del Roland Garros, ha perso al primo turno da Ekaterina Makarova, fuori dalle teste di serie. Con un punteggio di doppio 6-2, è una sconfitta che sarà sempre considerata in modo netto: oltre al danno, anche la beffa.

Andrea Petkovic, connazionale di Kerber, ha espresso la sua diagnosi, dicendo che Kerber sta semplicemente mancando di fiducia in questo momento e che, nonostante il punteggio severo, chiunque s’intenda un minimo di tennis ha notato i suoi errori nei momenti importanti dovuti proprio ad assenza di fiducia, errori che l’anno scorso non commetteva.

Si tratta di una possibile interpretazione di un’analisi frequente: una giocatrice perde perché non ha retto la pressione dei punti più importanti. Anche se questo probabilmente non considera tutti i problemi avuti da Kerber durante la partita – Makarova ha comunque vinto 72 punti rispetto ai 55 di Kerber – è vero che i punti più importanti generano un effetto sproporzionato sull’esito finale. Per ogni giocatrice che spreca dozzine di palle break ma riesce comunque a vincere la partita, ce ne sono altre che crollano nei passaggi cruciali e finiscono per perdere.

Questo insieme di teorie – vale a dire che una giocatrice gioca meglio o peggio nei momenti importanti – può essere sottoposto a valutazione numerica. L’estate scorsa ad esempio ho illustrato come la sconfitta di Roger Federer a Wimbledon 2016 contro Milos Raonic era in parte attribuibile al suo inferiore livello di gioco nei momenti più importanti. Si può fare lo stesso con la sconfitta di Kerber al primo turno a Parigi.

È utile spiegare il procedimento. Una volta calcolata la probabilità di ciascuna giocatrice di vincere la partita prima di ogni punto, possiamo misurare ogni punto in termini di importanza, che preferisco chiamare leva o LEV, che quantifica l’impatto eventuale del singolo punto sull’esito della partita. Sul 3-0, 40-0 l’impatto è praticamente nullo. Sul 3-3, 40-AD nel set decisivo, potrebbe essere anche superiore al 10%. Considerando tutte le partite di un torneo, la LEV media è nell’intervallo tra il 5% e il 6%.

Se Petkovic ha ragione, troveremo che la LEV media degli errori non forzati di Kerber era maggiore che su altri punti (non ho tenuto conto dei punti diretti al servizio, visto che nessuna giocatrice ha avuto la possibilità di commettere un errore non forzato). Naturalmente, i 13 errori non forzati su colpi a rimbalzo di Kerber (quindi escludendo i doppi falli) hanno avuto una LEV media del 5.5%, rispetto al 3.8% dei punti che sono terminati in altri modi. I suoi punti terminati con un errore non forzato sono stati più importanti del 45% di quelli terminati diversamente.

Vediamo come si pone questo risultato. Tra le 86 giocatrici per cui sono disponibili informazioni punto per punto sugli errori non forzati del primo turno del tabellone di singolare femminile (i dati arrivano dal sito del Roland Garros, vengono poi aggregati dopo ogni Slam e sono qui consultabili), dieci hanno scelto un momento peggiore di Kerber per commettere un errore.

Magdalena Rybarikova è stata la più estrema: i suoi 8 errori non forzati contro Coco Vandeweghe sono arrivati in punti importanti più del doppio, in media, rispetto agli altri punti della partita. Sette tra le dieci giocatrici con pessimo tempismo hanno perso poi la partita e altre due, Agnieszka Radwanska e Marketa Vondrousova, hanno commesso così pochi errori (rispettivamente tre e quattro) da essere ininfluenti. Solo Dominika Cibulkova, i cui 15 errori sono arrivati in momenti sbagliati quasi quanto quelli di Kerber, è riuscita ad avanzare al secondo turno nonostante non abbia retto alla pressione dei momenti più importanti.
Un’altra considerazione per dettagliare il contesto: gli errori non forzati sono distribuiti equamente su tutti i livelli di LEV. D’istinto potremmo pensare al contrario, cioè richiamare in memoria molto più facilmente errori non forzati nei momenti di maggiore pressione, ma i numeri non lo confermano. Quindi, gli errori con pessimo tempismo di Kerber si mantengono tali anche se messi a confronto con la media del circuito.

E arrivano nei momenti sbagliati anche rispetto alle sue recenti prestazioni negli Slam, come lasciato intendere anche da Petkovic dicendo che erano errori che l’anno scorso Kerber non commetteva. Nelle 19 partite giocate nei precedenti quattro Slam (dal Roland Garros 2016), gli errori non forzati sono arrivati in punti che erano importanti l’11% in meno di quelli in cui non ci sono stati errori non forzati. Gli errori di Kerber l’hanno portata a perdere punti relativamente più importanti in cinque delle 19 partite e, anche in quelle cinque, il rapporto tra la LEV dei punti terminati con errori non forzati e la LEV dei punti terminati diversamente non è mai andato oltre il 31% della partita contro Lesia Tsurenko agli Australian Open, che è comunque migliore a quella della sconfitta al primo turno al Roland Garros.

Su così tante partite, una differenza dell’11% è rilevante. Delle trenta giocatrici di cui sono disponibili dati punto per punto sugli errori non forzati in almeno otto partite dei quattro Slam precedenti, solo tre sono riuscite a commettere errori non forzati in momenti meno importanti. Radwanska è in cima all’elenco con il 16%, seguita da Timea Bacsinszky al14% e Kiki Bertens al 12%. Le altre 26 giocatrici hanno commesso errori non forzati in momenti più importanti rispetto a quanto fatto da Kerber.

Come spesso accade nel tennis, è difficile determinare se una statistica di questo tipo sia indicativa di una tendenza di lungo periodo o semplicemente un rumore di fondo. Non essendoci dati punto per punto della maggior parte delle partite di Kerber, non è possibile nemmeno andare a vedere il rendimento in termini di errori non forzati nei momenti sbagliati negli altri tornei del 2017. Invece, dobbiamo valutare la capacità di Kerber di limitare gli errori non forzati nei momenti importanti a quelle partite di cui sono disponibili informazioni puntuali.

Angelique Kerber’s Unclutch Unforced Errors

I 22 miti del tennis di Klaassen & Magnus – Mito 3 (sull’importanza dei punti)

di Stephanie Kovalchik // OnTheT

Pubblicato il 5 marzo 2016 – Traduzione di Edoardo Salvati

Un’analisi del Mito 2.

Il terzo mito affrontato da Franc Klaassen e Jan Magnus nel loro classico della letteratura statistica sul tennis Analyzing Wimbledon riguarda l’importanza dei punti, e se ogni punto ha la stessa importanza per il giocatore al servizio e per quello alla risposta.

Mito 3: “Ogni punto (game, set) ha la stessa importanza per entrambi i giocatori”

Klaassen e Magnus sostengono la ragionevole tesi per cui un punto ha sempre la stessa importanza per il giocatore al servizio come per quello alla risposta.

Faccio una premessa sul significato di importanza qui inteso. Nella sua accezione statistica, quella adottata da i due autori, la definizione di importanza rimanda a quella proposta dallo statistico di sport Carl Morris. Secondo questa definizione, l’importanza di un punto equivale alla variazione nella probabilità di vincere un game se quel determinato punto è vinto o se è perso. In altre parole, l’importanza di un punto risiede nella misura in cui vincere quel punto permetta di “portare a casa” il game rispetto a quanto perdere quel punto ne allontani la vittoria. 

Sulla base di questo assunto, Klaassen e Magnus dicono che, quale sia l’aumento delle probabilità che il giocatore al servizio vinca il game dopo aver vinto il punto, a quell’aumento corrisponde necessariamente un’eguale diminuzione nelle probabilità di vincere il game da parte del giocatore in risposta, come accade ad esempio nelle sfide di Coppa Davis, in cui la sconfitta di una squadra è la vittoria dell’altra.

Questo non significa che tutti i punti sono importanti allo stesso modo, perché non sappiamo non essere certamente il caso. Significa invece che, quale sia l’importanza di un punto per il giocatore al servizio, quel punto è importante allo stesso modo per il giocatore alla risposta.

Quali sono i punti più importanti nel tennis?

Visto che il Mito 3 è incentrato sulla simmetria nel tennis più che su ragionamenti statistici, ho pensato che si potesse ampliare l’argomento e capire quali sono i punti più importanti nel tennis moderno.

L’immagine 1 mostra la suddivisione dell’importanza dei punti per il circuito maschile nel 2015, secondo la stessa definizione di importanza usata da Morris e Klaassen e Magnus (nella versione originale è possibile visualizzare i singoli valori puntando il mouse su ciascun cerchio, n.d.t.). L’importanza effettiva è evidenziata in blu e nell’indicazione del punteggio i punti del giocatore al servizio compaiono a sinistra e quelli del giocatore alla risposta a destra. Non sono considerati i tiebreak.

IMMAGINE 1 – Importanza dei punti per il circuito ATP, 2015

km3_1

Grazie a questo tipo di rappresentazione grafica, è più facile notare la grande estensione dell’intervallo di variazione dell’importanza. Il punto più importante sul 30-40 è in grado di influenzare la probabilità di vincere il game del 70%. Invece, il punto meno importante sul 40-0 ha un’influenza solo del 4%.    

È naturale essere sorpresi dalla bassa importanza di quei punti che decidono il game, nell’esempio il punto sul 40-0. Se da un lato è vero che se il giocatore al servizio vince il punto sul 40-0 ha vinto il game, dall’altro è anche vero che se perde il punto comunque le probabilità di vincere il game rimangono piuttosto alte. La ragione sta nel fatto che il giocatore al servizio ha molte possibilità di recuperare uno o due punti e, in qualità di iniziatore del punto, parte da una posizione di vantaggio su tutti i punti aggiuntivi che vengono giocati.

Generalmente, le palle break sono i punti più critici dai cui tirarsi fuori se il giocatore al servizio nutre qualche speranza di vincere il game.

In questo tabella, il punto sul 30-40 ha lo stesso valore del punto sul vantaggio esterno (40-AD) e il punto sul 40-30 è equivalente al vantaggio interno (AD-40).

Come mostrato dall’immagine 2, l’importanza dei punti nel circuito femminile è simile a quella maschile, anche se l’intervallo di variazione dell’importanza è più corto a causa del ruolo meno dominante del servizio.

IMMAGINE 2 – Importanza dei punti per il circuito WTA, 2015

km3_2

Tutti i punti sono importanti quanto ci si attende che lo siano?

Il valore “atteso” che si può notare accanto a ciascun punto corrisponde all’importanza associata a quel punto che ci si attende se il giocatore al servizio giocasse ogni punto con eguale probabilità. Per gli uomini, la probabilità attesa è del 64% mentre per le donne è del 57%, che i due autori hanno ottenuto dalle prestazioni medie al servizio negli Slam del 2010. Sono medie che, nel 2015, non hanno subito cambiamenti significativi.

Sebbene l’importanza effettiva dei punti giocati nel tennis moderno a livello di circuito maggiore sia sostanzialmente in linea con le attese, ci sono alcuni casi interessanti di scostamento evidenziati da valori attesi fuori dal margine di errore (rappresentati dalle barre di errore) dell’importanza stimata per il 2015. Per gli uomini, i punti sul 30-40, 15-40 e 0-40 sono stati molto meno importanti nel gioco effettivo di quanto ci si attendesse se i giocatori al servizio avessero sempre servito con il 64% di efficacia (lo stesso risultato è stato ottenuto nel 2001 in una ricerca di Peter G. O’Donoghue, anche se il tema centrale in quel caso era la differenza tra sessi, non tanto gli scostamenti dall’importanza pronosticata).   

Sul circuito femminile lo schema è simile, anche se la grandezza nelle differenze è più contenuta.

Quali sono le conseguenze di queste deviazioni rispetto a quanto previsto da Klaassen e Magnus?

La risposta più semplice è che i giocatori non giocano sempre ogni punto con la stessa efficacia e le dinamiche di gioco generano un intervallo di importanza più ridotto di quanto ci si attenderebbe nel “modello di eguale efficacia”. Altri studi mostrano che la probabilità del giocatore al servizio di vincere un punto è inferiore se sotto pressione, come ad esempio nelle situazioni di palle break, per le quali si osservano gli scostamenti maggiori in termini di importanza. Questo potrebbe essere dovuto al fatto che, in media, il giocatore al servizio non riesce a reggere la pressione o il giocatore alla risposta è bravo ad alzare il suo livello di gioco.   

Quale sia la ragione che determina gli scostamenti, l’effetto risultante è una diminuzione della probabilità del giocatore al servizio di recuperare nel punteggio e, di conseguenza, una riduzione dell’importanza di quelle situazioni di punteggio. 

Tuttavia, anche in presenza di questi scostamenti rispetto alle attese, si può comunque giungere all’interessante conclusione che non tutte le palle break sono importanti allo stesso modo.

Klaassen & Magnus’s 22 Myths of Tennis— Myth 3

Le partite femminili più emozionanti della stagione 2016

di Jeff Sackmann // TennisAbstract

Pubblicato il 30 novembre 2016 – Traduzione di Edoardo Salvati

Nel mio ultimo pezzo per The Economist, ho utilizzato una statistica chiamata indice emozionale (IE) per analizzare quali potessero essere le conseguenze dell’accorciamento delle partite di singolare con un format come quello usato per il doppio, che incorpora regole come il game senza i vantaggi e il super-tiebreak. Nelle mie simulazioni, il format con durata ridotta non è andato bene: le partite più emozionanti sono spesso quelle più lunghe, e un terzo set molto combattuto è solitamente la parte a maggiore palpitazione.

In quell’articolo ho usato dati relativi ai tornei dell’ATP e diversi lettori hanno chiesto quali punteggi ottengano le partite femminili se misurate con l’indice emozionale. Molte delle partite della stagione 2016 hanno un indice emozionale piuttosto alto, mentre alcune giocatrici che riteniamo eccellere nella categoria non sono arrivate tra le migliori secondo questa statistica. Condividerò a breve alcuni dei risultati.

Prima però una rapida descrizione dell’indice emozionale. È possibile calcolare la probabilità di ciascuna giocatrice di vincere la partita in qualsiasi momento. Con quei numeri è poi possibile determinare la leva di ogni punto, vale a dire la differenza tra le probabilità di una giocatrice nel caso vinca il punto successivo e le probabilità nel caso lo perda. Sul 40-0 e indietro di un break nel primo set, la leva di quel punto è molto bassa, meno del 2%. In un tiebreak del terzo set a punteggio ravvicinato, la leva può arrivare anche al 25%. La leva di un punto medio è tra il 5 e il 6% e in situazioni in cui nessuna giocatrice ha un vantaggio sostanziale, i punti sul 30-30 o successivi hanno una leva più alta.

L’indice emozionale è calcolato facendo la media della leva di ogni punto nella partita. Maggiori sono i punti a leva alta, maggiore è l’indice emozionale. Per rendere il valore finale più facilmente leggibile, si moltiplica la leva media per 1000, in modo che il punto canonico con potenziale oscillatorio del 5% (0.05) corrisponda a un IE di 50. Le partite più noiose, come la demolizione agli Internazionali d’Italia per 6-1 6-0 di Ekaterina Makarova da parte di Garbine Muguruza, hanno un valore sotto 25. Le più emozionanti invece occasionalmente superano 100: la partita media WTA media quest’anno ha ottenuto un indice emozionale di 53.7. In confronto, il valore di una partita media ATP è stato di 48.9.

Naturalmente, la quantità e l’importanza dei momenti cruciali non sono l’unico elemento che rende emozionante una partita di tennis. In genere, le finali hanno più trasporto di un primo turno, gli scambi lunghi e un gioco a rete coraggioso si lasciano vedere con più divertimento di una serie di colpi tirati al massimo e infarciti di errori, e nelle sfide di Coppa Davis il tifo è in grado di far sembrare la fase di riscaldamento un tiebreak del terzo set. Quando verranno fatte le classifiche sulle “Migliori partite del 2016”, alcuni di questi fattori saranno certamente presi in considerazione. L’IE ha un approccio più ristretto ed è in grado di mostrare quali partite, indipendentemente dal contesto, hanno offerto il tennis a più alta pressione.

Questo è l’elenco delle prime 10 partite femminili del 2016 secondo l’IE:

Torneo       Partita             Punteggio            IE  
Charleston   Lucic/Mladenovic    4-6 6-4 7-6(13)      109.9  
Wimbledon    Cibulkova/Radwanska 6-3 5-7 9-7          105.0  
Wimbledon    Safarova/Cepelova   4-6 6-1 12-10        101.7  
Kuala Lumpur Nara/Hantuchova     6-4 6-7(4) 7-6(10)   100.2  
Brisbane     CSN/Lepchenko       4-6 6-4 7-5          99.0  
Quebec City  Vickery/Tig         7-6(5) 6-7(3) 7-6(7) 98.5  
Miami        Garcia/Petkovic     7-6(5) 3-6 7-6(2)    98.1  
Wimbledon    Vesnina/Makarova    5-7 6-1 9-7          97.2  
Beijing      Keys/Kvitova        6-3 6-7(2) 7-6(5)    96.8  
Acapulco     Stephens/Cibulkova  6-4 4-6 7-6(5)       96.7

Andare sul 6-6 nell’ultimo set è certamente un buon metodo per comparire nella lista. Su circa 2700 partite, le prime 50 hanno tutte raggiunto almeno il 5-5 nel terzo set. La partita con IE più alto che non è arrivata a quel punteggio è stata la vittoria per 1-6 7-6(2) 6-4 di Angelique Kerber su Elina Svitolina, con un valore di 88.2. La vittoria per 4-6 6-3 6-4 di Svitolina su Bethanie Mattek Sands nel torneo di Wuhan, la partita di maggior valore della lista senza che nessun set raggiungesse il 5-5, ha ottenuto un IE di 87.3.

Il torneo di Wimbledon 2016 ha avuto un numero inusuale di partite emozionanti, specialmente se paragonato al Roland Garros e agli Australian Open, gli altri Slam che non prevedono il tiebreak all’ultimo set. La partita del Roland Garros a più alto IE è stata il primo turno tra Johanna Larsson e Magda Linette, che ha ottenuto 95.3 e si è posizionata al 13esimo posto stagionale, mentre quella con IE più alto agli Australian Open tra Monica Puig e Kristyna Pliskova arriva solo al 27esimo posto con un IE di 92.8.

Solo Dominika Cibulkova compare due volte nella lista, aspetto che non la rende necessariamente un riferimento per le partite emozionanti: come vedremo, le giocatrici di elite raramente lo sono. Delle prime 10 a fine anno Svetlana Kuznetsova è l’unica con un valore medio di IE tra i più alti, che ha giocato partite “molto emozionanti” – quelle che rientrano nel primo quintile delle partite della stagione – nella stessa misura di qualsiasi altra giocatrice del circuito:

Class. Giocatrice  P   IE medio M. Emoz. Emoz. % Noiose %  
1      Mladenovic  60  59.8     19       55.0%   25.0%  
2      McHale      46  59.6     16       50.0%   19.6%  
3      Watson      35  58.5     12       48.6%   25.7%  
4      Jankovic    43  57.6     12       55.8%   30.2%  
5      Kuznetsova  64  57.4     21       48.4%   32.8%  
6      Williams    38  57.1     10       55.3%   31.6%  
7      Wickmayer   43  56.5     13       46.5%   30.2%  
8      Riske       46  56.5     10       45.7%   32.6%  
9      Garcia      62  56.4     18       43.5%   33.9%  
10     Begu        42  56.4     14       45.2%   40.5%

(La colonna P indica il numero di partite, esclusi i ritiri, con un minimo di 35 partite giocate nel circuito maggiore. Sfortunatamente, non ho potuto considerare diverse partite sparse durante la stagione perché mancavano i dati.)

La colonna “M. Emoz.” riporta quante delle partite giocate rientrano nel primo quintile, quello delle partite molto emozionanti. La colonna “Emoz. %” mostra la percentuale di quelle partite che ottengono una valutazione tra il 40% più alto di tutte quelle giocate nel circuito femminile, mentre la colonna “Noiose %” mostra la stessa percentuale ma riferita al 40% inferiore, cioè le partite più noiose. Le giocatrici dal grande servizio che raggiungono un numero eccessivo di tiebreak e di set che terminano sul 7-5 figurano bene in questa lista, anche se non si tratta proprio di una corrispondenza perfetta. I tiebreak possono dar vita a molti momenti emozionanti, ma se prima del 6-6 ci sono stati molti game a zero, complessivamente la partita può non essere stata così interessante.

A differenza di Kuznetsova, che ha giocato ben 32 set decisivi quest’anno, la maggior parte delle giocatrici più forti si è avvantaggiata di molti set a senso unico. Muguruza, Simona Halep e Serena Williams occupano gli ultimi tre posti della classifica delle medie di indice emozionale, in larga parte perché, quando vincono, lo fanno con grande facilità, e lo fanno molto spesso. La tabella mostra la classifica (su 59 giocatrici) in termini di medie di indice emozionale delle prime 10 della classifica WTA a fine stagione:

Class. Giocatrice Class.WTA P  IE medio M.Emoz. Emoz.% Noioso%  
5      Kuznetsova 9         64 57.4     21      48.4%  32.8%  
13     Pliskova   6         66 55.6     19      48.5%  39.4%  
16     Keys       8         64 55.4     13      40.6%  35.9%  
23     Cibulkova  5         68 54.6     21      42.6%  42.6%  
28     Kerber     1         77 54.0     12      42.9%  41.6%  

media circuito                 53.7             40.0%  40.0%  

41     Radwanska  3         69 52.5     12      29.0%  44.9%  
51     Konta      10        67 51.2     12      34.3%  46.3%  
57     Muguruza   7         51 49.9     5       33.3%  43.1%  
58     Halep      4         59 49.6     8       30.5%  50.8%  
59     Williams   2         44 48.1     3       27.3%  50.0%

È un bene che Williams abbia tifosi così appassionati, perché sono poche le occasioni in cui le sue partite offrono grandi emozioni. Ma c’è una giocatrice che sta ancora più in basso di Williams e Halep, Victoria Azarenka. Il suo quarto turno contro Muguruza al Miami Premier è stata l’unica partita della stagione a rientrare nella categoria “emozionanti”, e il suo IE medio è stato solo di 44.0

Chiaramente, quello dell’indice emozionale non è un metodo troppo sofisticato se l’obiettivo è identificare le giocatrici migliori. Così come utilizzarlo per le giocatrici di classifica più bassa sarebbe erroneo: al 56esimo posto, appena sopra Muguruza, si trova Nao Hibino, abbastanza sconosciuta. L’IE è un’ottimo strumento per isolare le partite a più alto contenuto di batticuore, a prescindere se siano state viste da una platea internazionale o completamente ignorate. La prossima volta che qualcuno suggerisce di ridurre la durata delle partite, far riferimento all’indice emozionale è la giusta strategia per evidenziare quanta eccitazione andrebbe buttata via.

The Most Exciting Matches of the 2016 WTA Season

Le partite di tennis e il fattore fortuna

di Michael Beuoy // Inpredictable

Pubblicato il 4 luglio 2014 – Traduzione di Edoardo Salvati

Come per la maggior parte degli sport, anche nel tennis vincere significa fare più punti dell’avversario. Il formato con cui viene determinato il punteggio (game-set-partita) rende però il tennis diverso dagli altri sport. Nel basket ad esempio, la vittoria arriva segnando più punti dell’avversario. Nel tennis, vincere più punti generalmente porta alla vittoria finale, ma non ne è garanzia assoluta, perché conta anche quando si ottengono i punti e se i punti ottenuti sono serviti a vincere i set.

Carl Bialik, su FiveThirtyEight, ha approfondito il tema introducendo la definizione di “partite lotteria” in riferimento a quelle partite vinte dal giocatore che ha fatto meno punti. Utilizzando dati da Tennis Abstract, ha trovato che il 7.5% delle partite maschili rientra in questa categoria.

In questo articolo, analizzo più nel dettaglio le partite lotteria per trovare una misura del ruolo della “fortuna” nel tennis, che farà poi da complemento ai grafici sulle probabilità di vittoria che uso normalmente su Inpredictable.

Utilizzando dati da Matchstat relativi alle partite ATP dal 2008 al 2013, ho calcolato quanto spesso un giocatore vince una partita rispetto alla percentuale dei punti fatti. Il grafico riassume i risultati, suddivisi in funzione del format della partita, al meglio dei 3 o dei 5 set.

luck_1

Come si osserva, le probabilità di vincere una partita aumentano rapidamente in funzione dei punti fatti, per cui con almeno il 53% dei punti si vince virtualmente la partita.

Definire la fortuna

Con lo stesso campione di partite ho costruito un semplice modello di regressione logistica che quantifica la probabilità di vincere la partita in funzione della percentuale di punti ottenuti. Queste sono le formule.

  • Al meglio dei 3 set:

probabilità di vittoria della partita = 1 / ( 1 + exp(-128 * MOV))

  • Al meglio dei 5 set:

probabilità di vittoria della partita = 1 / ( 1 + exp(-154 * MOV))

dove MOV sta per “margine di vittoria” ed è la percentuale di punti ottenuti, meno 0.5.

Per i miei grafici sulle probabilità di vittoria, ho convertito il risultato di queste formule in probabilità percentuali, che ho chiamato “fortuna”: maggiore il fattore “fortuna”, più improbabile è il risultato finale della partita. Ad esempio, la partita più “fortunosa” del tabellone femminile di Wimbledon 2014 è stata la vittoria in tre set di Irina Camelia Begu su Virginie Razzano,

luck_2

Begu ha vinto la partita nonostante abbia ottenuto solo il 47.7% dei punti (un differenziale netto di punti pari a -9).

Utilizzando dati da Matchstat, la partita ATP più “fortunosa” dal 2008 al 2013 è stata la vittoria al torneo di Orbetello 2010 di Juan Martin Aranguren su Carlos Berlocq per 6-3 0-6 6-4, nella quale Aranguren ha ottenuto solo il 44.4% dei punti. Le probabilità di vincere una partita al meglio dei tre set ottenendo solo il 44.4% dei punti sono 1300 a 1 (cioè lo 0.08%).

Tennis matches and luck

Fare la differenza nei momenti chiave: una misura del predominio di un giocatore

di Jeff Sackmann // TennisAbstract

Pubblicato il 17 agosto 2016 – Traduzione di Edoardo Salvati

Parafrasando Tolstoj, è nel novero dell’informazione tennistica che non tutti i punti nel tennis sono uguali tra loro e spesso la vittoria – o sconfitta – di una partita dipende da come un giocatore gestisce quelli più importanti. Grazie ad alcuni ace piazzati al momento opportuno o, viceversa, a causa di errori banali, è facile guadagnarsi la fama di giocatore dalla solidità mentale impenetrabile o di giocatore non in grado di reggere la pressione, colui che in gergo televisivo sviluppa il così detto “braccino”.   

A parte le classiche statistiche sulle palle break, che hanno però molte limitazioni, non esiste una valida misura nel tennis della capacità di un giocatore di fare la differenza e dominare nei momenti chiave (clutchness). Se da un lato contare le palle break vinte e perse non è sufficiente, dall’altro il lavoro preparatorio per quantificare il predominio nei momenti chiave di un giocatore è in buona parte già stato svolto.     

Più volte mi sono occupato della probabilità di vittoria (win probability) nel tennis. Per qualsiasi situazione di punteggio durante una partita si è nella posizione di calcolare la possibilità di ciascuno dei due giocatori di ottenere la vittoria finale. Nel 2010, prendendo a prestito dal baseball, ho introdotto il concetto di volatilità (volatility). La volatilità, chiamata anche leva (leverage), misura l’importanza di ciascun punto, intesa come la differenza – in termini di probabilità di vittoria – tra un giocatore che vince o che perde un determinato punto. 

In altre parole, più alta è la leva di un punto, più ha valore vincere quel punto. Definire un punto a leva alta è semplicemente un tecnicismo per chiamarlo punto importante. Per essere considerato capace di fare la differenza nei momenti chiave, un giocatore deve vincere più punti a leva alta di quanti ne vinca a leva bassa. Non serve vincere un numero spropositato di punti a leva alta per essere un ottimo giocatore – e la percentuale di conversione delle palle break di Roger Federer ne è la controprova – ma i punti a leva alta sono sicuramente una componente fondamentale del predominio nei momenti chiave di un giocatore. 

(Non sono l’unico ad aver deciso di affrontare questo specifico argomento. Lo ha fatto anche Stephanie Kovalchik nel suo blog On The T nel dicembre scorso, calcolando statistiche di predominio nei momenti chiave per l’intera stagione ATP 2015.)

Per un’applicazione concreta del concetto di predominio nei momenti chiave, ho calcolato la probabilità di vittoria e la leva (LEV) per ogni punto della semifinale di Wimbledon 2016 tra Federer e Milos Raonic. La LEV del primo punto della partita è del 2.2%. Vincendolo, Raonic potrebbe portare le sue chance di vittoria finale al 50.7%, perdendolo le chance scenderebbero al 48.5%. La leva più alta nela partita è stata di un incredibile 32.8%, quando Federer (per due volte) ha avuto il punto del game sull’1-2 nel quinto set. La leva più bassa è stata solo di 0.03%, quando Ranoic ha servito sul 40-0 sotto di un break nel terzo set. La LEV media della partita è stata di 5.7%, un valore relativamente alto come ci si può aspettare da una partita molto combattuto. 

In media, i 166 punti vinti da Raonic, con una LEV del 5.85%, sono stati leggermente più importanti dei 160 vinti da Federer, con una LEV del 5.62%. Senza un’analisi più approfondita dei dati sulla leva dell’intera partita, non posso dire se si tratti di una differenza veramente significativa. Quello che è evidente però è che alcuni elementi del gioco di Federer sono mancati proprio quando ne aveva più bisogno.

Le statistiche ufficiali di Wimbledon dicono che Federer ha commesso nove errori non forzati, a cui si aggiungono 5 doppi falli su cui torneremo a breve (secondo i dati raccolti dal Match Charting Project sulla partita, Federer ha commesso 15 non forzati). Ci sono stati 180 punti in cui si è scambiato – in cui quindi chi era alla risposta è riuscito a mettere la pallina in gioco – con una LEV media del 6.0%. In confronto, gli errori non forzati di Federer hanno avuto una LEV quasi doppia, pari all’11%! La leva media dei non forzati di Raonic è stata del 6.8%, un valore molto meno degno di nota.

I doppi falli commessi da Federer sono arrivati in un momento ancora più sbagliato. A chi ha guardato la partita verso la fine del quarto set non serve una statistica raffinata per confermalo, ma comunque i cinque doppi falli di Federer hanno avuto una LEV media del 13.7%. Raonic ha commesso 11 doppi falli, ma con una LEV media del 4.0%. Questo significa banalmente che i doppi falli di Raonic hanno avuto un impatto sull’esito della partita minore di quelli di Federer, nonostante fossero più del doppio. 

Anche il colpo per eccellenza di Federer, il dritto, ha avuto meno incisività se lo si valuta in termini di leva. I vincenti di dritto di Federer sono stati 26, in punti con LEV media del 5.1%. Raonic ha colpito 23 vincenti di dritto in punti con LEV media del 7.0%.

Da tutti questi numeri, sembra chiaro che Federer abbia mostrato la sua grandezza in punti che non contavano così tanto.

Il quadro d’insieme

L’analisi di qualche numero riferito a una sola partita non ha molta validità in più rispetto all’affermare che un giocatore ha perso perché non ha vinto i punti più importanti. Anche se i numeri sono sempre utili a dimostrare un teoria, hanno comunque poco peso se non si arricchisce il contesto da cui vengono estrapolati.

Per una maggiore comprensione della prestazione di un giocatore in questa (o in qualsiasi) partita con le statistiche sulla leva, ci sono molte altre domande a cui si dovrebbe poter dare risposta. Ad esempio, il gioco di Federer nei punti a leva alta è caratteristico delle sue partite? Raonic fa doppio fallo più frequentemente sui punti meno importanti? I punti a leva più alta comportano mediamente maggiori risposte messe in campo? Quanto il concetto di leva può spiegare il risultato finale di una partita a punteggio molto ravvicinato? 

Credo che queste domande (e le mille altre che possono venire in mente) siano evidente indicazione di un filone di studi ancora da esplorare. I numeri di cabotaggio inferiore, come la leva media dei punti che si chiudono con un errore non forzato, sembrano riservare maggiori potenzialità. Ad esempio, potrebbe essere che Federer, sui punti a leva più alta, sia meno tentato di ricercare un vincente di dritto.   

Anche se è riduttivo ricavare conclusioni da campioni poco numerosi, queste statistiche permettono di isolare il comportamento dei giocatori nei momenti cruciali. A differenza di alcune delle semplici statistiche su cui gli appassionati di tennis devono fare affidamento, i numeri relativi alla leva possono sostanzialmente migliorare la comprensione delle dinamiche di gioco di ciascun giocatore del circuito, anche durante lo svolgimento della partita.

Measuring the Clutchness of Everything