Probabilità e previsioni Archivi - Pagina 5 di 7

Sulla scelta di una mina vagante a Wimbledon

di Chapel Heel // FirstBallIn

Pubblicato il 2 luglio 2017 – Traduzione di Edoardo Salvati

Solitamente, l’idea della mina vagante in un tabellone è quella di un giocatore che non ci si aspetta di veder vincere o, in atro tipo di formulazione, un giocatore che vince ma del quale si conosceva poco in precedenza.

Applicate al tennis, diventano due diverse misure: la maggior parte delle persone non pensa che Grigor Dimitrov vincerà, ma non si può proprio dire che di lui si conosca poco. Inoltre, c’è il problema di capire quali attese siano considerate normali e quale sia il livello di conoscenza dello sport considerabile standard. È possibile che gli esperti attribuiranno a Stanislas Wawrinka più probabilità di vincere Wimbledon di quanto non faccia lo spettatore occasionale, che invece potrebbe avere difficoltà a riconoscerlo anche in una foto segnaletica.

Per fare un termine di paragone, se si decide di scegliere come mina vagante nel torneo di basket collegiale americano NCAA una delle prime quattro teste di serie della relativa sezione o region, non si è veramente optato per una mina vagante. In riferimento al tabellone di Wimbledon, questo vorrebbe dire che nessuna delle prime sedici teste di serie può essere una mina vagante. O ancora, rispetto al campo partecipanti (16 squadre delle 64 del torneo NCAA), nessuna delle prime trentadue teste di serie sarebbe considerabile una mina vagante (25% di 128 giocatori).

Nel tennis non è come nel torneo NCAA di basket

Questa regola quindi non può funzionare per il tennis. Se Lucas Pouille, testa di serie numero 14, vincesse Wimbledon, sarebbe senza dubbio un risultato sconvolgente ma – utilizzando le teste di serie del torneo NCAA come standard – non rientrerebbe nella definizione di mina vagante. Sarebbe però facilmente identificabile come giocatore da cui non ci si aspettava vincesse e forse anche uno del quale si conosceva poco in precedenza.

È più probabile che sul concetto di mina vagante per il torneo NCAA incidano i mini tornei che sono le quattro singole region, quindi in verità le mine vaganti sono le squadre con testa di serie dalla 5 in avanti in una sezione, escludendo di fatto dalla definizione solo le prime quattro teste di serie.

Nel tennis, questo renderebbe Wawrinka una mina vagante, alquanto strano considerando che è l’unico giocatore dopo i Fantastici Quattro che si pensa possa avere una possibilità di vittoria finale in uno Slam. Ci sono persone che si aspettano davvero che Wawrinka possa vincere Wimbledon? Gli allibratori di Las Vegas pesano abbia solo il 3% di probabilità (Wawrinka è già uscito dal torneo perdendo al primo turno, n.d.t.). C’erano poche squadre (ad esempio Wichita State e St. Mary’s) ad avere una probabilità del 3% nel torneo NCAA 2017. E cosa penserebbe lo spettatore medio sulle probabilità di Wawrinka?

Percentuale cumulativa di vittoria attesa

Invece di usare i numeri delle teste di serie, ho pensato che sarebbe interessante verificare la percentuale cumulativa di vittoria attesa per le prime sedici teste di serie del torneo NCAA 2017.

KenPom

Ho riguardato quindi le valutazioni di KenPom per le teste di serie alla numero 1 alla numero 4 e verificato i suoi pronostici. Complessivamente, le squadre a cui poi sono state attribuite le prime sedici teste di serie avevano una probabilità di circa l’80% di vincere il torneo. Ricordo (e si potrebbe verificare su Google) che le quote di Las Vegas erano nello stesso intorno.

Ipotizziamo quindi di sommare la percentuale di vittoria attesa per ciascuna testa di serie a Wimbledon fino a raggiungere l’80%, e di considerare qualsiasi giocatore fuori da quell’insieme una mina vagante.

OddsPortal

Inizio con le quote di Las Vegas, utilizzando le medie da OddsPortal.com e ipotizzando una commissione del 4.5%. Superiamo il limite dell’80% con Rafael Nadal, che significa che le teste di serie dalla numero 5 in avanti – iniziando proprio da Wawrinka – sono considerabili una mina vagante.

TennisAbstract

Proviamo ora con le previsioni di TennisAbstract. In questo caso, il limite dell’80% è superato ancora più velocemente, con Roger Federer, aspetto che renderebbe Nadal una mina vagante. TennisAbstract assegna a Nadal una percentuale di vittoria del 4.2%, Las Vegas pensa che sia il 17%, per me è al 5.5%.

FirstBallIn

Con le mie previsioni, supereremmo il limite dell’80% con Nadal, rendendo quindi nuovamente Wawrinka una mina vagante. Las Vegas gli assegna un 3%, per me ha solo l’1.2% (abbiamo appunto visto che Wawrinka è poi uscito al primo turno, n.d.t.). Siamo nell’ordine di Cincinnati o Michigan nel torneo NCAA 2017, con Michigan che si è comportata egregiamente da mina vagante fino agli ultimi secondi dello Sweet Sixteen, cioè le partite di ottavi di finale.

Invece delle teste di serie, potremmo procedere a spuntare i singoli favoriti a partire dall’alto secondo le quote di Las Vegas, ma Wawrinka comunque manterrebbe il suo status di mina vagante. Se usassimo l’85% come limite anziché l’80%, sia il taglio di Las Vegas che quello generato dai miei pronostici arriverebbe intorno a Milos Raonic, rendendo Marin Cilic e Dominic Thiem mine vaganti del tabellone. Penso che entrambi possano consensualmente rientrare nella definizione “non ci si attende che vincano”.

Le quote di Las Vegas e altri esperti non gli affidano molte probabilità di vincere e lo spettatore medio raramente ha sentito parlare di loro. Recentemente un super patito di tennis mi ha chiesto se conoscessi un giovane giocatore chiamato “Time”, mentre un altro, nel posto in cui gioco a tennis spesso, si riferisce alla testa di serie numero 10 con “Zuh-VAIR-uh-vev” (che a ben vedere è molto più difficile da pronunciare del suo vero nome). È interessante notare che con un limite di 85% e procedendo a spuntare i favoriti secondo le quote di Las Vegas, invece che procedendo in funzione delle teste di serie, si escluderebbe Cilic dallo status di mina vagante, mentre rientrerebbero Raonic e Wawrinka!

Soddisfare tutti i criteri

Ho deciso quindi di introdurre una formulazione per la quale tutti i seguenti criteri devono essere soddisfatti:

lo spettatore medio non deve avere familiarità del giocatore; in questo senso conta l’errata pronuncia del nome, la non conoscenza della nazione di provenienza, e gli sguardi impietriti nelle conversazioni quando ci si riferisce a lui
i pronostici, tra cui quelli di Las Vegas, non devono dare in generale più del 5% di probabilità di vittoria al giocatore
il giocatore non deve rientrare nel primo 85% di probabilità di vittoria, partendo dalla probabilità delle prime teste di serie e in funzione delle quote di Las Vegas o di altri pronostici ragionevolmente attendibili.

La mia mina vagante? I miei pronostici direbbero Kei Nishikori con il 3.1% (Las Vegas lo considera da 1.1%), ma scelgo Jo-Wilfried Tsonga con il 2.6% (Las Vegas lo considera da 1.4%).

Picking a Wimbledon Dark Horse

Chi ha favorito e sfavorito di più il (o la fortuna nel) sorteggio del tabellone maschile di Wimbledon?

di Chapel Heel // FirstBallIn

Pubblicato l’1 luglio 2017 – Traduzione di Edoardo Salvati

Nel sorteggio del tabellone di un torneo del Grande Slam, le uniche posizioni predefinite sono quelle della testa di serie numero 1, in cima alla parte alta, e della testa di serie numero 2, in fondo alla parte bassa.

Le rimanenti teste di serie sono inizialmente raggruppate nella stessa urna di estrazione, ricevono determinate posizioni del tabellone e vengono poi distribuite nelle stesse in modo del tutto casuale.

Ad esempio, la testa di serie numero 3 e la numero 4 sono posizionate in specifici punti nella parte alta e in quella bassa del tabellone, ma se la testa di serie numero 3 finisce nella parte alta o in quella bassa dipende solo dall’estrazione (questo è il motivo per il quale i tabelloni del tennis non sono, ad esempio, come quello del torneo di basket della NCAA, dove si sa già che, se tutte le teste di serie avanzano nella loro sezione o region, la numero 1 giocherà con la numero 4 e la numero 2 con la numero 3).

Le teste di serie dalla numero 5 alla 8 sono nello stesso gruppo e vengono poi distribuite in quattro specifici punti del tabellone, e così via. I giocatori che sono fuori dalle teste di serie riempiono tutte le altre posizioni in funzione del sorteggio.

Per la presenza di specifici vincoli e per la casualità del sorteggio, il tabellone di Wimbledon 2017 rappresenta solo una di molte possibili combinazioni. Non ne conosco il numero esatto, ma deve aggirarsi nell’ordine dei milioni.

Simulazioni del tabellone

È sempre stata mia consuetudine verificare se il sorteggio effettivo di un torneo ha determinato un tabellone più favorevole o meno favorevole per un giocatore rispetto alla media di molti tabelloni casuali. Vediamo cosa è successo per quello di Wimbledon 2017.

Ho eseguito 100.000 simulazioni del tabellone per come è effettivamente definito, utilizzando a questo scopo solo le valutazioni Elo (nella mia versione specifica per superficie).

Ho poi eseguito 100.000 simulazioni Elo con ciascun tabellone sorteggiato ex novo a ogni simulazione, in modo da avere 100.000 diversi tabelloni di quest’ultima tipologia, seguendo sempre le stesse regole di determinazione.

Mettendo a confronto il primo insieme di tabelloni con il secondo, possiamo farci un’idea se il tabellone effettivo di Wimbledon 2017 abbia favorito o sfavorito uno specifico giocatore, rispetto alla media di 100.000 tabelloni casuali composti dagli stessi giocatori che partecipano al torneo.

Se si eseguissero queste simulazioni un milione di volte contro le 100.000, emergerebbero delle differenze, ma è probabile non più grandi occasionalmente dell’1% nei casi più estremi.

La visualizzazione a mappa di calore

La tabella riepiloga i risultati sotto forma di “mappa di calore” (sempre se la si possa applicare a una tabella), con il colore verde a indicare che il tabellone effettivo è più favorevole della media di tabelloni casuali e, viceversa, il colore rosso a indicare che il tabellone effettivo è meno favorevole. Le teste di serie sono in grassetto.

In termini di possibile raggiungimento dei quarti di finale, si nota che Gilles Muller è stato il più fortunato nel tabellone effettivo, e Juan Martin Del Potro il meno fortunato.

Spostandosi verso destra, le differenze iniziano a ridursi, perché i giocatori migliori tendono a raggiungere le fasi conclusive a prescindere da come si presenti il tabellone. Va detto però che la percentuale di Kei Nishikori per la semifinale è insolitamente alta.

E si possono vedere anche gli effetti sul percorso di Roger Federer e Novak Djokovic dovuti al fatto che si trovano dallo stesso lato del tabellone, cioè la parte bassa che – in generale – è anche quella più competitiva.

Whom Did the Wimbledon (Luck of the) Draw Favor/Hurt the Most?

Rimbalzi imprevedibili, risultati pronosticabili

di Jeff Sackmann // TennisAbstract

Pubblicato il 23 giugno 2017 – Traduzione di Edoardo Salvati

Di questi tempi, la stagione sull’erba è lo sgraziato figliastro del calendario tennistico. Si gioca quasi interamente nei confini di una sola nazione, dura poco meno di un mese e soffre spesso dell’assenza dei giocatori di vertice, che preferiscono prendere una pausa dopo le fatiche del Roland Garros.

Il ridotto numero di tornei sull’erba non agevola nemmeno il lavoro degli analisti. È una superficie che si comporta diversamente dal cemento o dalla terra battuta e ricompensa determinati stili di gioco, quindi è ragionevole ipotizzare che alcuni giocatori saranno particolarmente efficaci (Gilles Muller) o non si troveranno a proprio agio (Stanislas Wawrinka). Con il 90% delle partite del circuito giocato su altre superfici, non c’è a disposizione per molti giocatori una base dati attraverso la quale valutare la loro bravura sull’erba.

Sorprendono risultati alquanto prevedibili sull’erba

Sono rimasto sorpreso quindi nello scoprire che i risultati delle partite sull’erba sono alquanto prevedibili. I pronostici del circuito maschile basati sulle valutazioni Elo sono accurati quasi quanto quelli sul cemento e considerabilmente più efficaci di quelli sulla terra. Anche utilizzando previsioni “pure” per superficie, vale a dire prevedere gli esiti di una partita con valutazioni che si affidano esclusivamente su risultati derivanti da quella superficie, le previsioni per le partite sull’erba sono leggermente migliori di quelle sulla terra.

Ho considerato un insieme di circa 50.000 partite del circuito maschile dal 2000 ai tornei di Halle e del Queen’s Club della settimana scorsa, eliminando ritiri pre e durante la partita. Come termine di riferimento, ho utilizzato la classifica ufficiale dell’ATP per fare pronostici per ciascuna delle partite del campione. Nel 66.6% dei casi si è rivelato uno strumento corretto, e l’indice Brier per la classifica ATP nel periodo considerato è .210 (l’indice Brier misura l’accuratezza di un insieme di pronostici attraverso la media dell’errore quadratico di ogni singolo pronostico; più basso è il valore dell’indice, maggiore la qualità delle previsioni. Per fare un esempio di indici Brier specifici del tennis, nel 2016 la classifica ATP ha ottenuto un punteggio di .208 mentre le quote degli allibratori, complessivamente, hanno avuto un Brier di .189).

Proviamo ora a inserire la variabile superficie e confrontare il rendimento della classifica (ATP), del sistema Elo e di Elo specifico per superficie (sElo). Nella tabella, la colonna “F%” rappresenta la percentuale di partite vinte dal giocatore considerato favorito dal sistema utilizzato e “Br” è l’indice Brier.

Superficie  ATP F%  ATP Br  Elo F%  Elo Br  sElo F%  sElo Br  
Cemento     67.3%   0.207   68.0%   0.205   68.5%    0.202  
Terra       66.1%   0.211   67.1%   0.211   67.0%    0.213  
Erba        66.0%   0.215   67.6%   0.207   68.5%    0.207

Al meglio sul cemento e divergenza tra terra ed erba

I tre i sistemi di valutazione funzionano al meglio per le partite sul cemento. C’è una ragione precisa per questo: la classifica ufficiale ATP e Elo complessivo attribuiscono maggiore peso ai risultati sul cemento che a quelli sulla terra o sull’erba. Elo specifico per superficie funziona al meglio sul cemento per un motivo simile: più dati a disposizione.

Possiamo già vedere però la divergenza di valutazione tra terra ed erba, specialmente con Elo specifico per superficie. Siamo in grado di spiegare la migliore prestazione di Elo complessivo per l’erba con la presunta vicinanza di gioco tra cemento e erba, cioè se un giocatore eccelle sul primo probabilmente si trova bene anche sulla seconda, anche se magari è un disastro sulla terra. Questo però non spiega come mai sElo faccia meglio sull’erba che sulla terra. Le partite del circuito sulla terra sono più del triplo (3.3) rispetto a quelle sull’erba quindi praticamente per tutti i giocatori ci saranno più risultati disponibili sulla terra che sull’erba, anche tenendo conto delle loro scelte in funzione della preferenza di superficie.

Possiamo migliorare ulteriormente questi pronostici mischiando le valutazioni specifiche per superficie con le valutazioni complessive. Dopo aver provato diverse combinazioni, l’equa ponderazione tra Elo complessivo e sElo rappresenta il mix adatto per il risultato migliore (le differenze tra, ad esempio, 60/40 e 50/50 sono estremamente ridotte, quindi anche se 60/40 è leggermente meglio, preferisco la semplicità della suddivisione equa). La tabella riepiloga i risultati per gli sElo ponderati delle tre superfici.

Superficie  ATP F%   ATP Br  
Cemento     68.6%    0.202  
Terra       68.0%    0.207  
Erba        69.8%    0.196

L’erba è la superficie più pronosticabile di quelle usate nei tornei Slam!

Anche utilizzando una media ponderata di Elo e sElo, i pronostici per l’erba fanno affidamento su meno dati di quelli per altre superfici: si parla di meno di un terzo dei risultati utili per le previsioni su terra e meno di un quinto per quelle su cemento. Anzi, possiamo fare altrettanto bene – e forse un po’ meglio – con anche meno dati: una ponderazione equa 50/50 dei risultati su erba e di quelli su cemento è parimenti accurata del 50/50 di Elo specifico per erba e Elo complessivo.

A prescindere dalla formula esatta, sorprende la possibilità di fare previsioni così accurate per le partite sull’erba con dati così limitati. Anche se un terzo dei tornei del circuito fossero giocati sull’erba, comunque non sarei rimasto stupito se i pronostici per le partite sull’erba fossero risultati i più difficili da fare. Più una superficie favorisce il giocatore al servizio – e l’erba è quella in cui è più complicato ottenere un break – più equilibrato tende a essere il punteggio, lasciando spazio a maggiore casualità nel risultato finale. Nonostante questa alterazione di fondo, siamo in grado di pronosticare i vincitori sull’erba con efficacia equivalente alle altre più diffuse superfici.

Contesto inalterato

Questa è la mia teoria: anche in presenza di pochi tornei sull’erba, il contesto in cui vengono giocati è abbastanza inalterato. Si è sul livello del mare, i campi sono preparati seguendo le indicazioni degli esperti di Wimbledon, e la pioggia è sempre una minaccia incombente, tenendo lontano il sole. Proviamo a paragonare questa omogeneità con la varietà dei tornei sul cemento e sulla terra. I campi in cemento e in altura di Bogotà non hanno nulla a che vedere con quelli molto più lenti dell’Indian Wells Masters. La verde “terra” (americana) di Houston è accomunata ai rossi mattoni polverizzati del Roland Garros solo dal nome. Mentre i campi in erba sono praticamente tutti uguali, quelli in terra sono diversi uno dall’altro quasi tanto quanto lo sono dalle altre superfici.

Uniformità di superficie

È ragionevole che valutazioni basate sull’uniformità di una superficie siano più precise di quelle derivanti da un’ampia varietà di superfici, ed è quindi rassicurante che la limitazione nei dati a disposizione non impedisca a questo vantaggio di emergere. Inoltre, questa ricerca suggerisce un’altra strada per pronostici più accurati: accostare partite sul cemento e sulla terra sulla base di una definizione più puntuale di velocità di una superficie. Se il 10% di partite del circuito è sufficiente per fare previsioni affidabili sull’erba, lo stesso potrebbe valere per il terzo dei campi in terra più lenti. È quasi sempre meglio avere più dati, ma qualche volta dati più mirati sono meglio dell’abbondanza di dati.

Unpredictable Bounces, Predictable Results

Una misurazione dell’incidenza della formula per assegnare le teste di serie a Wimbledon

di Jeff Sackmann // TennisAbstract

Pubblicato il 27 giugno 2017 – Traduzione di Edoardo Salvati

A differenza di tutti gli altri tornei del calendario, per assegnare le teste di serie Wimbledon utilizza una formula proprietaria: garantisce ai primi 32 delle classifiche del circuito maschile e femminile la testa di serie, riordinandole poi in funzione del suo algoritmo che premia giocatori e giocatrici per il loro rendimento sull’erba nelle due stagioni passate.

Quest’anno, la formula di Wimbledon ha un’incidenza più significativa del solito. Il sette volte campione Roger Federer è uno dei giocatori più forti di sempre sull’erba e, sebbene abbia dominato sul cemento all’inizio del 2017, è ancora fuori dai primi 4 della classifica ATP, non avendo giocato nella seconda parte del 2016. Grazie alla procedura adottata da Wimbledon, Federer scambia la sua posizione con quella di Stanislas Wawrinka e riceve la testa di serie numero 3.

Anche di fronte alle prestazioni non esaltanti di Wawrinka sull’erba e allo stato di forma discutibile di Andy Murray e Novak Djokovic, entrare tra i primi 4 è fonte di benefici. Se tutte le teste di serie avanzano nei primi quattro turni (e non lo faranno, ma seguite il ragionamento), la testa di serie numero 5 dovrà affrontare un cammino verso il titolo che la obbliga a sconfiggere tre dei primi 4 giocatori. Lo stesso percorso spetterà al giocatore dei primi 4 che troverà la testa di serie numero 5 nel suo quarto, ma gli altri tre avranno vita più facile. Prima che i giocatori vengano disposti nel tabellone, le prime quattro teste di serie hanno il 75% di probabilità di quel percorso più facile.

L’incidenza di tre diversi metodi di assegnazione delle teste di serie

Verifichiamo queste supposizioni con qualche numero. Sono interessato a conoscere l’incidenza sul tabellone di tre diverse metodologie di assegnazione delle teste di serie: la classifica ATP (come avviene per tutti i tornei), la formula di Wimbledon e la ponderazione del sistema Elo specifico per l’erba.

Come ho descritto in precedenza, le valutazioni Elo specifiche per superficie e ponderate, quindi ottenute da una media tra Elo specifico per superficie e Elo complessivo – hanno maggiore potere predittivo della classifica ATP, di Elo specifico per superficie e di Elo complessivo.

Inoltre, Elo su erba ponderato – che chiameremo gElo – ha capacità predittiva altrettanto attendibile di Elo per il cemento e per la terra, anche se sull’erba ci sono meno dati a disposizione. In un mondo fatto solo di analisti di tennis, le teste di serie verrebbero assegnate con un sistema che richiama molto più le valutazioni gElo che l’algoritmo utilizzato dall’ATP.

È per questo che ci affidiamo a gElo per studiare gli effetti delle diverse modalità di assegnazione delle teste di serie. La tabella riepiloga le valutazioni gElo per i primi 16, comprensive dei risultati di Halle e del Queen’s Club.

Pos.  Giocatore   gElo
1     Djokovic    2296.5  
2     Murray      2247.6  
3     Federer     2246.8  
4     Nadal       2101.4  
5     Del Potro   2037.5  
6     Nishikori   2035.9  
7     Raonic      2029.4  
8     Tsonga      2020.2  
9     Zverev      2010.2  
10    Cilic       1997.7  
11    Kyrgios     1967.7  
12    Berdych     1967.0  
13    Muller      1958.2  
14    Gasquet     1953.4  
15    Wawrinka    1952.8  
16    Lopez       1945.3

Alcune posizioni possono generare dei dubbi – del resto l’algoritmo ignora l’esistenza dei problemi che sembrano influenzare il rendimento di Djokovic ad esempio – ma in generale gElo è il sistema migliore per rappresentare la bravura di un giocatore su quella determinata superficie.

I pronostici di vittoria

Come passo successivo, costruiamo un ipotetico tabellone di 128 giocatori e procediamo con le simulazioni, ne servono in grandissimo numero. Utilizzo i primi 128 della classifica – escludendo i ritiri sicuri come quelli di David Goffin e Pablo Carreno Busta – che non sono troppo diversi dai giocatori che effettivamente parteciperanno a Wimbledon. A questo punto, per ogni metodologia, si generano un centinaio di migliaia di simulazioni del tabellone, delle conseguenti partite per ogni sezione e se ne sommano i vincitori.

La tabella riepiloga i primi 10 giocatori e la loro probabilità di vittoria a Wimbledon rispetto alle tre differenti metodologie di assegnazione delle teste di serie:

Giocatore  ATP  V%      Wimb  V%      gElo  V%  
Murray     1    23.6%   1     24.3%   2     24.1%  
Nadal      2    6.1%    4     5.7%    4     5.5%  
Wawrinka   3    0.8%    5     0.5%    15    0.4%  
Djokovic   4    34.1%   2     35.4%   1     34.8%  
Federer    5    21.1%   3     22.4%   3     22.4%  
Cilic      6    1.3%    7     1.0%    10    1.0%  
Raonic     7    2.0%    6     1.6%    7     1.7%  
Thiem      8    0.4%    8     0.3%    17    0.2%  
Nishikori  9    1.9%    9     1.7%    6     1.9%  
Tsonga     10   1.6%    12    1.4%    8     1.5%

Ancora una volta gElo sembrerebbe troppo ottimista nei confronti di Djokovic – o almeno è quello che pensano gli allibratori – ma l’elemento da considerare qui sono le differenze tra sistemi. Federer riceve una leggera spinta per essere entrato tra le prime quattro teste di serie e Wawrinka – che non è proprio il preferito di gElo – perde una buona fetta delle sue già modeste speranze dopo essere uscito dai primi 4.

La probabilità per le semifinali

L’incidenza delle teste di serie è molto più importante se si considera la probabilità di vittoria relativa alle semifinali anziché alla vittoria del torneo, come riepilogato dalla tabella.

Giocatore  ATP  V%      Wimb  V%      gElo  V%  
Murray     1    23.6%   1     24.3%   2     24.1%  
Nadal      2    6.1%    4     5.7%    4     5.5%  
Wawrinka   3    0.8%    5     0.5%    15    0.4%  
Djokovic   4    34.1%   2     35.4%   1     34.8%  
Federer    5    21.1%   3     22.4%   3     22.4%  
Cilic      6    1.3%    7     1.0%    10    1.0%  
Raonic     7    2.0%    6     1.6%    7     1.7%  
Thiem      8    0.4%    8     0.3%    17    0.2%  
Nishikori  9    1.9%    9     1.7%    6     1.9%  
Tsonga     10   1.6%    12    1.4%    8     1.5%

In questo caso assistiamo a maggiori differenze per i giocatori di vertice in funzione del sistema di assegnazione considerato. Non solo la probabilità di Federer di raggiungere la semifinale sale dal 50 al 64% facendo il suo ingresso nei primi 4, ma anche Djokovic e Murray vedono la loro probabilità aumentare perché Federer non è più un possibile avversario nei quarti di finale. Da sottolineare nuovamente che l’effetto negativo più ampio ricade sempre su Wawrinka: una testa di serie tra le prime quattro avrebbe protetto un giocatore che non è destinato a fare troppa strada sull’erba.

Curiosamente, sono quasi solo i Fantastici Quattro tra le 32 teste di serie a beneficiare dell’algoritmo di Wimbledon. Eliminando la possibilità che Federer rientri nel quarto, ad esempio, di Murray, la formula di Wimbledon rende molto meno probabile la circostanza di un semifinalista a sorpresa. La probabilità di Tomas Berdych di arrivare in semifinale aumenta di poco, dall’8 al 8.4% con la testa di serie numero 11 che corrisponde alla sua classifica numero 13, ma la probabilità per le altre 27 teste di serie di raggiungere la semifinale diminuisce rispetto a quella che avrebbero avuto se anche Wimbledon utilizzasse la classifica ufficiale.

Si riduce la probabilità per i giocatori fuori pronostico

Siamo di fronte all’inatteso effetto collaterale che deriva dalla giusta configurazione tra classifica e assegnazione delle teste di serie: si riduce la probabilità che giocatori fuori pronostico arrivino alle fasi finali della competizione. È un impatto simile all’introduzione delle 32 teste di serie negli Slam anziché le 16: proteggendo i migliori (e i migliori dopo i migliori, cioè i giocatori dalla testa di serie 17 alla 32) in modo che non giochino subito uno contro l’altro, gli organizzatori del torneo impongono ai giocatori non teste di serie di percorrere una strada molto più ardua.

Rimuovendo Wawrinka dalle prime quattro teste di serie, l’algoritmo di Wimbledon ha evitato un potenziale serio risultato a sorpresa, aumentando però contestualmente la probabilità di assistere alle semifinali che tutti aspettano di vedere tra i migliori giocatori sull’erba del mondo.

Measuring the Impact of Wimbledon’s Seeding Formula

Jelena Ostapenko promette di diventare più della prossima Iva Majoli?

di Jeff Sackmann // TennisAbstract

Pubblicato il 14 giugno 2017 – Traduzione di Edoardo Salvati

Vincere un torneo dello Slam da giovanissima – o nel caso della campionessa del Roland Garros 2017 Jelena Ostapenko da appena ventenne – è un’impresa eccezionale. Ma non è sempre garanzia di futura grandezza.

Molte delle più grandi di tutti i tempi hanno lanciato la loro carriera vincendo titoli Slam a partire da vent’anni, ma ci sono tre giocatrici che hanno vinto il primo Slam a un’età simile a quella di Ostapenko e il cui successivo percorso funge da ammonimento in senso opposto: Iva Majoli, Mary Pierce e Gabriela Sabatini. Ciascuna di loro non era più grande di vent’anni e tre mesi quanto ha vinto il primo Slam e delle tre solo Pierce è riuscita a vincerne un secondo.

Va detto però che paragonare l’età di Ostapenko a quella di precedenti campionesse Slam non le rende giusto merito. Negli ultimi due decenni il tennis femminile è “invecchiato”: l’età media del tabellone di singolare al Roland Garros 2017 era di 25.6 anni, solo di pochi giorni più bassa del record stabilito al Roland Garros stesso e a Wimbledon lo scorso anno.

Sono due anni in più dell’età media di una giocatrice attiva quindici anni fa, e quattro anni in più della media del tabellone di trent’anni fa. All’inizio del Roland Garros 2017, c’erano solo cinque giovanissime tra le prime 100 del mondo; alla fine del 2004, l’anno in cui Maria Sharapova e Svetlana Kuznetsova hanno vinto il loro primo Slam, ce n’erano quasi il triplo.

Età relativa

Per questo non sembra corretto raggruppare Ostapenko con le precedenti campionesse diciannovenni o ventenni. Invece, dovremmo considerare l’età relativa di Ostapenko – vale a dire la differenza con l’età media delle giocatrici in tabellone – che era inferiore rispetto alle altre di 5.68 anni.

Nell’articolo in cui ho introdotto il concetto di età relativa, il termine di paragone era sulle semifinaliste Slam e, in ogni epoca, ci sono state diverse giocatrici che hanno raggiunto le semifinali per poi spegnersi nel proseguo della carriera con altrettanta rapidità. Non si può dire lo stesso delle giocatrici che invece hanno vinto uno o più Slam.

Negli ultimi trent’anni, solo due giocatrici hanno vinto uno Slam con un’età relativa superiore a quella di Ostapenko: Sharapova, più giovane di 6.66 anni rispetto al campo partecipazione degli US Open 2004 e Martina Hingis, che ha realizzato tre quarti di Slam nel 1997 a sedici anni, cioè tra i 6.3 e i 6.6 anni più giovane del tabellone.

Gruppo esclusivo

Nelle prime cinque di questa speciale classifica figurano giocatrici che danno ulteriore peso all’esclusività del gruppo in cui si trova Ostapenko, tra cui Monica Seles (5.29 anni più giovane al Roland Garros 1990) e Serena Williams (5.26 anni più giovane agli US Open 1999).

Ognuna di queste quattro giocatrici ha poi raggiunto anche il numero 1 della classifica mondiale e vinto almeno cinque Slam, una previsione eccessivamente ottimistica per Ostapenko che, anche dopo aver vinto a Parigi, rimane fuori dalle prime 10.

In quanto a età relativa, Majoli, Pierce e Sabatini non sono un grande termine di paragone, visto che Majoli e Pierce erano solo di 3 anni più giovani della media del tabellone e Sabatini solo di 2 anni più giovane. In confronto, Garbine Muguruza era più giovane di 2 anni e mezzo rispetto alla media del tabellone quando ha vinto il Roland Garros 2016 all’età di 22 anni.

Non c’è una risposta definitiva

C’è una conclusione? Purtroppo non ho una risposta definitiva e probabilmente non riusciremo ad averne una per molti anni. Per la maggior parte dell’era Open, fino a circa dieci anni fa, l’età media sul circuito femminile ha oscillato tra i 21 e i 23 anni. Quindi, per la popolazione aggregata delle prime vincitrici di uno Slam, l’età effettiva e quella relativa sono altamente correlate.

È solo nell’ultima decade che i numeri hanno iniziato a divergere significativamente, per merito di diverse campionesse debuttanti. Dobbiamo ancora vedere che tipo di evoluzione prenderà la carriera di Ostapenko e Muguruza, e forse anche quella di Victoria Azarenka e Petra Kvitova. Al fine di testare l’ipotesi serve un campione più grande per cui ci sarebbe bisogno di altre giovanissime prime vincitrici di Slam, che potrebbero emergere quando Sharapova e Williams si sono ritirate.

Is Jelena Ostapenko More Than the Next Iva Majoli?

Gli scontri diretti hanno valore limitato

di Jeff Sackmann // TennisAbstract

Pubblicato il 19 gennaio 2014 – Traduzione di Edoardo Salvati

Nel quarto turno degli Australian Open 2014, Ana Ivanovic ha sconfitto Serena Williams, nonostante nei precedenti quattro incontri non avesse mai vinto un set. Nello stesso giorno e sempre al quarto turno, Tomas Berdych ha battuto Kevin Anderson per la decima volta consecutiva.

Commentatori e scommettitori amano il bilancio negli scontri diretti. Sentirete spesso dire che il tennis è uno sport in cui l’esito di una partita dipende molto da chi sta dall’altra parte della rete, affermazione con cui – ipotizzo – sia difficile trovarsi in disaccordo.

Quanto contano davvero le vittorie e le sconfitte negli scontri diretti?

Se il Giocatore A ha un record complessivo di partite migliore del Giocatore B ma è il Giocatore B ad aver vinto la maggior parte dei loro scontri diretti, su chi cade la scelta? Fino a che punto il bilancio negli scontri diretti passa sopra a qualsiasi altra considerazione?

È importante ricordare che, la maggior parte delle volte, il bilancio negli scontri diretti riflette quanto espresso da altre forme di misurazione del livello di bravura relativo di un giocatore. Sul circuito maschile, il bilancio negli scontri diretti concorda con la classifica relativa il 69% delle volte, vale a dire che il giocatore avanti negli scontri diretti è anche quello con un record di vittorie e sconfitte migliore. Quando due giocatori hanno giocato contro almeno cinque volte, gli scontri diretti concordano con la classifica relativa il 75% delle volte.

Di solito, quindi, il bilancio negli scontri diretti è corretto. Meno chiaro è se aggiunga informazioni utili alla nostra comprensione tennistica. Certo, Rafael Nadal demolisce Stanislas Wawrinka, ma dovremmo aspettarci qualcosa di diverso nel confronto tra un numero 1 dominante e un numero 8 solido ma meno efficace?

Scontri diretti contro classifica

Se il bilancio negli scontri diretti avesse molto valore, ci dovremmo attendere che – almeno per sottoinsiemi di partite – ottenga dei risultati migliori della classifica ATP. E si parla di un livello piuttosto basso, visto che le limitazioni che caratterizzano la classifica ufficiale ne impediscono di essere un affidabile strumento predittivo.

Per capire se gli scontri diretti possono rappresentare un metodo alternativo, ho analizzato le partite del circuito maschile dal 1996. Per ogni partita, ho verificato se il vincitore avesse una classifica superiore a quella del suo avversario e quale fosse il bilancio negli scontri diretti (nel cui computo ho escluso le partite non ATP).

In questo modo, per ogni bilancio negli scontri diretti (ad esempio cinque vittorie in otto partite totali), possiamo determinare quante volte ha vinto il giocatore avanti nel computo, quante volte ha vinto il giocatore con la classifica più alta, etc.

Ad esempio, ho trovato 1040 partite in cui uno dei giocatori aveva battuto il suo avversario quattro delle ultime cinque volte in cui avevano giocato. Il 65% di quelle partite sono state vinte dal giocatore avanti negli scontri diretti, mentre il 68.8% sono state vinte dal giocatore con la classifica più alta (il 54.4% delle partite sono rientrate in entrambe le categorie).

La situazione si fa più interessante nelle 258 partite in cui le due statistiche sono in disaccordo. Quando il giocatore avanti 4-1 negli scontri diretti aveva una classifica più bassa, ha vinto solo 109 (il 42.2%) di quelle partite. In altre parole, almeno per questo sottoinsieme di partite, si farebbe meglio a dare più peso alla capacità predittiva della classifica rispetto a quella degli scontri diretti.

Vedute più ampie, simili conclusioni

Per quasi tutti i bilanci negli scontri diretti, si ottengono gli stessi risultati. Ho trovato 26 diversi bilanci negli scontri diretti, qualsiasi combinazione da 1-0 a 7-3, con almeno 100 partite giocate, e in 20 di queste combinazioni il giocatore con la classifica più alta ha fatto meglio del giocatore con il miglior bilancio negli scontri diretti. In 19 dei 26 gruppi, quando la classifica era in disaccordo con gli scontri diretti, la classifica è stata il metodo più accurato per pronosticare l’esito della partita.

Se mettiamo insieme tutti i risultati per gli scontri diretti con almeno cinque partite, otteniamo un’idea più precisa dell’efficacia di queste due modalità. Il 68.5% delle volte, il giocatore con la classifica più alta vince, mente il 66% delle volte la partita va al giocatore avanti negli scontri diretti. Quando il bilancio negli scontri diretti e la classifica sono in disaccordo, la classifica è un indicatore più attendibile il 56.5% delle volte.

Gli scontri diretti più a senso unico, come 7-0 o 8-0 e così via, cioè quelli in cui un giocatore non ha mai perso, sono l’unico gruppo di partite in cui il bilancio ci dice più di quanto non faccia la classifica ufficiale. L’80% delle volte queste partite vengono vinte dal giocatore con la classifica più alta, mentre l’81.9% delle volte vince il giocatore che non ha mai perso. Nelle 78 partite per le quali c’è disaccordo tra bilancio negli scontri diretti e classifica, gli scontri diretti sono un metodo predittivo migliore esattamente i due terzi delle volte.

Ragione contro intuito

Quando si affida più importanza al bilancio negli scontri diretti che alla posizione nelle classifica ufficiale dei due giocatori considerati, si sta facendo affidamento su un campione di partite molto piccolo, contro un campione di gran lunga più ampio. Si tratta senza dubbio di un campione più specifico, ma rimane comunque di dimensioni ridotte.

Spesso inoltre non è così applicabile quanto in realtà si possa pensare. Quando Roger Federer ha sconfitto Lleyton Hewitt nel quarto turno degli Australian Open 2004, sino a quel momento lo aveva battuto solo due volte su nove partite. Però, in quel passaggio delle loro carriere, in ascesa era chiaramente il ventiduenne e numero 2 del mondo Federer, mentre Hewitt faceva fatica a rimanere competitivo. Per quanto la maggior parte delle loro precedenti partite si era giocata sulla stessa superficie e Hewitt aveva vinto le ultime tre, quel sottoinsieme di prestazioni di Federer non teneva conto dei suoi continui miglioramenti.

La partita più recente tra Federer e Hewitt fornisce un altro esempio illustrativo. Prima della finale di Brisbane 2014, Federer aveva vinto 15 delle ultime 16 partite tra i due ma, mentre negli ultimi anni Hewitt aveva mantenuto un livello intorno alla 40-50esima posizione, Federer era calato rispetto ai suoi standard. Nonostante avessero giocato contro 26 volte in carriera prima di quella finale (vinta poi da Hewitt con il punteggio di 6-1 4-6 6-3, n.d.t.), nessuna di quelle partite si era verificata negli ultimi due anni.

Gli scontri diretti sono eccessivamente influenzati da elementi esterni

Che sia un tema di superficie, vicinanza temporale, infortuni, condizioni meteo, o di mille altri fattori, gli scontri diretti sono eccessivamente influenzati da elementi esterni. Questo è il problema tipico dei campioni di dimensioni ridotte, il rumore di fondo ha molta probabilità di oscurare il segnale principale. E se è in grado di farlo in un bilancio negli scontri diretti così abbondante come quello tra Federer e Hewitt, la maggior parte degli scontri diretti con molte meno partite non ha alcuna possibilità.

Qualsiasi tipologia di classifica, che sia quella basata sui punti adottata dall’ATP o il mio algoritmo più sofisticato (e con maggior potere predittivo) Jrank, tiene in considerazione tutte le partite giocate dai due giocatori in questione per un periodo di tempo piuttosto lungo. Nella maggior parte dei casi, avere una visione così prospettica sul livello di gioco di entrambi è di valore indubbiamente superiore rispetto a una manciata di partite caratterizzate da rumore di fondo statistico. Se gli scontri diretti non battono la classifica ATP, farebbero una figura ancora peggiore contro un algoritmo più preciso.

Vantaggi incorporati nel sistema di classifica

Ci sono alcuni giocatori che hanno sicuramente un vantaggio contro determinati avversari o tipologia di avversari, tipo Andy Murray con i mancini o David Ferrer con Nicolas Almagro. La maggior parte delle volte però si tratta di vantaggi che vengono incorporati dai sistemi di classifica, anche se non sono esplicitamente programmati per riflettere questo tipo di differenze.

La prossima volta in cui Anderson giocherà contro Berdych, non dovrà provare sconforto. La sua probabilità di battere Berdych non sarà molto diversa da quella di un qualsiasi giocatore intorno al 20esimo posto della classifica contro un giocatore nella parte bassa dei primi 10. Anche tenendo conto del leggero effetto che ho trovato in un bilancio a senso unico negli scontri diretti, il giocatore in svantaggio non è destinato a perdere a prescindere.

The Limited Value of Head-to-Head Records

Il curioso caso di Stanislas Wawrinka

di Chapel Heel // FirstBallIn

Pubblicato il 9 giugno 2017 – Traduzione di Edoardo Salvati

Per calcolare la probabilità di vittoria di un giocatore, utilizzo un sistema basato sulle statistiche della singola partita. In generale, funziona con buona precisione, anche se non ne è l’unico sistema di cui mi servo. Ma, quando si tratta di Stanislas Wawrinka, ci sono dei problemi, perché viene continuamente sottovalutato.

Se un sistema funziona con buona precisione tranne che per qualche eccezione, mi aspetterei che quelle eccezioni fossero da far risalire allo stile di gioco. Ad esempio, se il sistema non funzionasse bene con giocatori come John Isner, Milos Raonic e Ivo Karlovic, riuscirei a comprenderne facilmente il motivo. Eppure, sembra andare bene per loro, ma non per Wawrinka.

Sono convinto che Wawrinka faccia qualcosa che le sue statistiche di partita aggregate non mostrino, perché credo che nessuno possa obiettare il fatto che sia uno dei migliori cinque giocatori al mondo dal 2014, pur essendo rimasto fuori per qualche ragione dal gruppo dei Fantastici Quattro.

I giocatori nei primi 25 del mondo continuativamente dal 2014

Per chiarire il concetto, ho analizzato i giocatori che dal 2014 sono rimasti continuativamente nei primi 25 della classifica. Si tratta un gruppo molto elitario: Tomas Berdych, Novak Djokovic, Roger Federer, Andy Murray, Rafael Nadal, Kei Nishikori, Raonic, Jo Wilfried Tsonga e appunto Wawrinka. Siccome volevo un insieme di almeno dieci giocatori e siccome un paio sono rimasti fuori per pochissimo, ho aggiunto Isner (un mese in classifica tra il numero 26 e il 28) e Richard Gasquet (due mesi tra il 26 e il 27).

Sulla base delle statistiche partita per partita dal 2014, le tabelle che seguono mostrano la posizione di Wawrinka in questo insieme di undici giocatori rispetto ad alcune categorie di analisi. Sono tutte statistiche ponderate per il numero di game giocati al servizio, e non includono il Roland Garros 2017.

Al settimo posto per punti vinti al servizio

Wawrinka è al settimo posto per punti vinti al servizio (A). Se considerato isolatamente, tenere il proprio servizio non ha troppo significato se non riesci mai a fare un break al tuo avversario (ad esempio con Isner) o se invece sei bravo a impedire al tuo avversario di vincere il suo servizio (ad esempio Nishikori). La tabella riepiloga, per ogni giocatore, le percentuali di punti al servizio degli avversari.

All’ottavo posto per punti non fatti vincere all’avversario

Wawrinka è ottavo nell’impedire all’avversario di vincere punti al servizio (B). Non è sorprendente, vista la sua tendenza a bloccare il colpo in risposta.

Al decimo posto nella differenza tra i due valori

Quale sia il significato di questi numeri, per la maggior parte delle analisi la percentuale effettiva dei punti vinti al servizio o la percentuale effettiva dei punti vinti al servizio dall’avversario non sono sono così importanti nella previsione dell’esito di una partita come la differenza tra la percentuale di punti vinti al servizio da un giocatore e la stessa percentuale dell’avversario. La tabella sulla destra mostra i risultati per questo tipo di calcolo [(A) – (B)].

I Fantastici Quattro sono ai primi quattro posti della classifica. Wawrinka? Beh…è al decimo posto!

Fino a questo momento Wawrinka si posiziona sempre nella parte bassa di queste classifiche, e comunque sempre dietro a Berdych (e forse questo dice qualcosa anche sul rendimento di Berdych).

Non trasforma più palle break degli altri

Magari è una questione di tempismo, forse Wawrinka non riesce a impedire ai suoi avversari di vincere un numero straordinario di punti al servizio, ma riesce a impedirlo nelle giuste situazioni. Questo dovrebbe avere evidenza nella sua capacità di trasformare palle break, come mostrato dalla tabella a sinistra.

E invece no, è sempre nella parte bassa della classifica.

Non affronta un livello di competizione più modesto

Allora forse Wawrinka si trova ad affrontare avversari generalmente più modesti di quelli dei Fantastici Quattro, visto che gioca più spesso partite di tornei 250. In altre parole, si nutre di un livello competitivo inferiore e gioca sufficientemente bene per vincere. Ci aspetteremmo di vedere traccia di questo nella percentuale di punti vinti al servizio o nella percentuale di punti vinti al servizio dai suoi avversari, ma forse non è così. La tabella di destra mostra la media ponderata della classifica degli avversari affrontati da ciascun giocatore dal 2014.

In generale, Wawrinka non affronta un livello di competizione più basso, perché in questo caso è al quarto posto.

Riepilogando, Wawrinka non è nella parte alta della classifica nella percentuale di punti vinti al servizio, nella percentuale di punti vinti al servizio dal suo avversario, nella differenza tra i due precedenti valori o nella percentuale di palle break trasformate, ma è tra i primi solo per livello di bravura medio degli avversari affrontati. Come è possibile quindi che sia tra i Grandi Cinque?

Vittorie Pitagoriche

La tabella sottostante riepiloga le percentuali effettive di vittoria di questi giocatori dal 2014. I valori della colonna ‘Vittorie Pitagoriche %’ sono ottenuti applicando una formula pitagorica (nello stile di Bill James) alla percentuale di punti vinti al servizio e alla percentuale di punti vinti al servizio dall’avversario con un esponente 10, che in generale è una buona approssimazione delle percentuali di vittoria del circuito maschile.

La colonna “Differenza Pitagorica” indica quanto un giocatore abbia fatto meglio (in positivo) o peggio (in negativo) della sua percentuale di vittorie pitagoriche. Come misura alternativa, ho utilizzato anche un modello di Markov con le percentuali di punti vinti al servizio e punti vinti al servizio dall’avversario per una stima delle percentuali di vittoria (in questo caso nell’ipotesi di partite al meglio dei 3 set con il tiebreak al set decisivo). La colonna ‘Differenza Markov’ indica quanto un giocatore abbia fatto meglio (in positivo) o peggio (in negativo) della sua probabilità attesa di Markov.

Al sesto posto per percentuale di vittorie effettive

Wawrinka si posiziona al sesto posto in termini di percentuale di vittorie effettive, al decimo posto come percentuale di vittorie pitagoriche e sempre al decimo posto come percentuale di vittorie Markov. Non sorprende dunque che la sua Differenza Pitagorica e la Differenza Markov siano al primo posto in questo elenco di giocatori, vale a dire che Wawrinka fa meglio di entrambe queste misurazioni delle attese.

Anche se la formula pitagorica tende a pronosticare questo gruppo in difetto di circa il 2%, Wawrinka è di gran lunga avanti nell’ottenere risultati migliori delle previsioni pitagoriche. Allo stesso modo, anche se il modello di Markov tende a pronosticare questo gruppo in eccesso di circa il 3%, Wawrinka è uno dei tre giocatori a ottenere risultati migliori delle previsioni di Markov.

Ho analizzato i risultati di Wawrinka con altre categorie, come la superficie (riesce meglio delle attese sul cemento che sulla terra), la categoria di torneo (fa leggermente peggio delle attese nei 250) e il turno giocato (fa leggermente peggio delle attese nei quarti e nelle semifinali, fa molto meglio delle attese in finale). Si potrebbe pensare che Wawrinka alzi il suo livello di gioco sul cemento e nei tornei più importanti, soprattutto se arriva in finale. Però, la sua percentuale di vittorie al Roland Garros è altrettanto buona che agli Australian Open e agli US Open. Inoltre, il suo punto a sfavore è sempre stata la prestazione nei tornei Master, nei quali i suoi risultati non sono paragonabili a quelli dei Fantastici Quattro.

Demolisce i più deboli e vince più delle attese contro i più forti?

In una precedente tabella, ho mostrato che la media ponderata della classifica degli avversari di Wawrinka era nella parte alta dell’elenco. È possibile naturalmente che demolisca gli avversari più deboli nei primi turni per alzare la sua probabilità di vittoria al di sopra delle attese. Verifichiamo quest’assunto, sulla base delle categorie viste in precedenza ma rispetto alle fasce di classifica effettiva dei suoi avversari.

Ci sono dei numeri strani in questa tabella. Wawrinka effettivamente demolisce gli avversari più deboli in modo sproporzionato rispetto alle attese, anche se non gioca particolarmente bene quelle partite. Allo stesso tempo supera in larga misura le attese nei confronti dei primi 10.

I suoi valori agli estremi della curva contro i primi 10 non sono così buoni, eppure è riuscito a batterli con una frequenza del 54%, nonostante una differenza negativa dello 0.030 tra la percentuale di punti vinti al servizio e la percentuale di punti vinti al servizio dagli avversari nelle 39 partite giocate.

Anzi, ha quattro vittorie contro i primi 10 nelle quali la sua percentuale di punti vinti al servizio era inferiore della percentuale di punti vinti al servizio dall’avversario, e non di poco (il 65.9% contro il 69.9%). Si tratta di quasi il 20% delle sue vittorie contro i primi 10. Per avere un termine di paragone, Murray ha una sola vittoria con differenziale negativo (cioè il 3% delle sue vittorie contro i primi 10), Djokovic ne ha due (3%), Nadal neanche una e Federer una (3%).

Cosa significa tutto questo (se significa qualcosa)?

Non ne sono del tutto certo, ma sembra che (a) giochi sufficientemente bene per vincere contro giocatori di più bassa classifica e (b) è in grado di alzare mentalmente il livello contro i giocatori di vertice nei momenti che contano.

Viene da chiedersi, Wawrinka è un giocatore migliore nei momenti chiave? Per trovare una risposta servirebbero dati molto più specifici di quelli che possiedo, e molti di coloro che hanno approfondito il tema in vari sport non hanno trovato un effetto “momenti chiave” sostanziale.

Vi lascio con un’ulteriore riflessione. Abbiamo visto prima che Wawrinka converte il 38.7% delle palle break, una percentuale che gli vale l’ottavo posto tra gli undici giocatori del campione. Contro i primi 10, la sua percentuale sale al 41.6%, cioè la terza assoluta, inferiore solamente a quella di Djokovic e Murray.

The Curious Case Of Stanislas Wawrinka

Dominic Thiem e la capacità di ribaltare sconfitte impietose

di Jeff Sackmann // TennisAbstract

Pubblicato l’8 giugno 2017 – Traduzione di Edoardo Salvati

Agli Internazionali d’Italia 2017, Dominic Thiem è stato battuto da Novak Djokovic con un inequivocabile 6-1 6-0. Si è trattato per Thiem di un crollo totale dopo la sua vittoria a sorpresa nel turno precedente su Rafael Nadal, e sembra essere servito a ricordare il vecchio adagio per cui l’esito di una partita di tennis dipende molto da chi sta dall’altra parte della rete. Anche il giocatore che riesce a battere il Re della Terra Battuta può fare fatica contro un diverso tipo di avversario.

Non è stato così però nel quarto di finale del Roland Garros 2017, in cui Thiem ha di nuovo giocato contro Djokovic vincendo in tre set. In meno di tre settimane, Thiem ha recuperato da una sconfitta bruciante per battere uno dei giocatori più forti di sempre.

Ho scritto in passato sulle limitazioni relative al valore degli scontri diretti: se il bilancio negli scontri diretti propende a favore di un giocatore ma la classifica si esprime in maniera diversa, la classifica ha dimostrato di essere uno strumento predittivo migliore.

Sistemi di valutazione più sofisticati come Elo sarebbero probabilmente ancora più precisi, anche se non li ho messi alla prova per questo confronto. Ci sono senza dubbio casi individuali in cui caratteristiche specifiche degli scontri diretti mettono in dubbio la capacità predittiva della classifica, ma dovendo scegliere tra i due, gli scontri diretti andrebbero in secondo piano.

E le sconfitte inequivocabili?

Prima del quarto di finale, la mia valutazione specifica per superficie sElo dava a Thiem una probabilità del 26% di ottenere un risultato a sorpresa. La recente sconfitta per 6-1 6-0 era naturalmente inclusa, ma solo in quanto sconfitta appunto, a prescindere dalla severità del punteggio. Avremmo dovuto essere più scettici sulle probabilità di Thiem considerando lo scontro diretto più recente con Djokovic?

In realtà Thiem non è il primo giocatore a ribaltare le circostanze dopo una sconfitta con un punteggio così impietoso. L’esempio più famoso è quello di Robin Soderling, che ha perso 6-1 6-0 da Nadal agli Internazionali d’Italia 2009 per poi riprendersi e siglare una delle sconfitte più a sorpresa nella storia del tennis, eliminando Nadal al Roland Garros 2009. Pochi recuperi portano con sé altrettanta drammaticità, ma se ne trovano a centinaia.

La maggior parte dei giocatori che perdono con punteggi a senso unico – e per lo scopo di quest’analisi considero tali le partite in cui il perdente ha vinto al massimo due game – non ha mai la possibilità di redimersi. Ho trovato circa 2250 di queste partite nell’era moderna dell’ATP, e gli stessi due giocatori hanno giocato di nuovo contro meno della metà delle volte.

E il fatto che gli scontri diretti vadano avanti è di per sé un segnale: ai giocatori mediocri – quelli che ci si aspetta perdano pesantemente – non viene data un’altra possibilità. Anche alcuni tra i primi 20 raramente giocano tra loro, quindi il tipo di giocatore che arriva ad avere la possibilità di redimersi potrebbe già aver mostrato che la sua sconfitta a senso unico era solo un passaggio a vuoto di quel giorno.

Una vendetta al 29%

Delle 951 volte in cui un giocatore perde malamente e poi gioca nuovamente con lo stesso avversario, riesce a vendicarsi vincendo la partita successiva 277 volte, cioè il 29%. Per quanto possa sembrare folle, se all’inizio della partita tra Thiem e Djokovic tutto quello che avessimo saputo era che Djokovic aveva vinto 6-1 6-0 la partita precedente, la nostra previsione più semplice sarebbe stata molto vicina al 26% offerta da un algoritmo molto più sofisticato come Elo.

Il 29% è un valore molto più alto di quanto mi aspettassi, ma più basso della frequenza tipica dei giocatori in queste situazioni.

Di tutti gli scontri diretti con almeno due partite, per ogni partita dopo la prima ho verificato se il risultato iniziale fosse stato mantenuto o invertito.

Oltre a isolare le partite con punteggio a senso unico, ho anche considerato quelle in cui il perdente ha vinto un set, ipotizzando che si trattasse di partite più equilibrate.

Da ultimo, per ognuna di quelle categorie, sono andato a vedere se le partite successive siano state giocate sulla stessa superficie. La tabella riepiloga quello che ho trovato, con tutte le percentuali di vittoria indicate in funzione del giocatore che, come Thiem, ha perso la partita iniziale:

La probabilità di recuperare da una sconfitta pesante è maggiore di quanto pensassi, ma considerevolmente inferiore alla probabilità per cui un giocatore ribalti il risultato dopo una sconfitta più contenuta, che è del 39%. Inoltre, il giocatore in cerca di rivincita ha più probabilità di rifarsi – per quanto non con un ampio margine – se si gioca su una superficie diversa.

C’è un effetto di selezione del campione?

È chiaro quindi che i giocatori hanno meno probabilità di recuperare da una sconfitta pesante rispetto a una più normale. Quanto di questo però è dovuto alla distorsione da selezione del campione? Dopotutto la maggior parte dei giocatori che perde 6-1 6-0 non è del calibro di Thiem o Soderling, anche se con un gioco di livello sufficientemente alto da mantenersi nel tabellone principale e prima o poi giocare di nuovo con lo stesso avversario.

Per trovare una risposta, ho analizzato nuovamente le 950 partite successive a una sconfitta a senso unico, questa volta facendo ricorso alle valutazioni Elo antecedenti alla partita. Dopo aver escluso le partite prima del 1980 e altri confronti di cui ci sono davvero poche informazioni, sono rimaste poco meno di 600 partite con dati punto per punto. In questo sottoinsieme, Elo assegnava ai giocatori sconfitti pesantemente una probabilità di vittoria della partita successiva pari al 33.6%. Come abbiamo visto, la frequenza effettiva di vittoria era del 29%. I giocatori che hanno vinto partite a senso unico hanno fatto meglio di quanto Elo avesse pronosticato per la loro partita successiva.

Non si tratta di una differenza enorme, ma è grande abbastanza da suggerire che quello specifico accoppiamento di giocatori è in parte predittivo dell’esito della partita successiva. Una singola partita può fare la differenza nei pronostici – a meno che non sia contro Thiem.

Altri esempi

Scavando tra le circostanze in cui un giocatore ha perso malamente e poi recuperato alla partita successiva, ho trovato un paio di esempi divertenti:

l’ex numero 7 del mondo Harold Solomon ha battuto Ivan Lendl 6-1 6-1 nella loro prima partita. Durante lo stesso anno, Lendl ha poi vinto agli US Open per 6-1 6-0 6-0. Lendl ha vinto anche le sei partite giocate successivamente;
nel corso di quattro anni, Phil Dent e Mark Cox hanno giocato tre partite con punteggio a senso unico. Cox ha vinto la prima, Dent si è preso la rivincita nella seconda e ancora Cox ha invertito il punteggio nella terza.

Dominic Thiem and Reversible Blowouts

Simona Halep e le rimonte dopo aver annullato uno o più match point

di Jeff Sackmann // TennisAbstract

Pubblicato l’8 giugno 2017 – Traduzione di Edoardo Salvati

Durante il quarto di finale al Roland Garros 2017 tra Elina Svitolina e Simona Halep, Svitolina è arrivata ad avere un vantaggio insormontabile di 6-3 5-1. In quel momento, le sue probabilità di vittoria erano – a seconda dei numeri utilizzati per il calcolo – tra il 97 e il 99%. Halep ha però poi rimontato fino al 5-5, e nel tiebreak del secondo set Svitolina si è ritrovata sul 6-5, a un punto dalla partita. Halep ha annullato il match point, vinto il tiebreak e chiuso con facilità 6-0 al terzo.

È facile trovare una storia per una sequenza di eventi come questa: dopo aver gettato due importanti situazioni di vantaggio, Svitolina si è smarrita e la vittoria del terzo da parte di Halep era praticamente una formalità. Forse è andata proprio così. È impossibile verificarlo sulla base di una sola partita, ma non è esattamente la prima volta in cui una giocatrice non è riuscita a chiudere la partita ed è dovuta ripartire da zero nel terzo set.

Chi vince il secondo set ha un leggero vantaggio all’inizio del terzo

Anche senza un match point annullato, la giocatrice che vince il secondo set ha un leggero vantaggio all’inizio del terzo. Nelle partite di singolare femminile Slam di più degli ultimi sei anni, la giocatrice che ha vinto il secondo set ha poi vinto anche il terzo il 51.3% delle volte. Se invece il secondo set è terminato al tiebreak, la vincitrice ha poi vinto il terzo set il 43.7% delle volte. Anche se può sembrare controintuitivo, rifacciamoci alle nostre conoscenze su quel tipo di set. La vincitrice del secondo set è riuscita a vincerlo a fatica (al tiebreak), mentre la sua avversaria, spesso, ha vinto il primo set più largamente. Il vantaggio psicologico è di aiuto, ma da solo non è in grado di compensare l’eventuale ampia differenza in termini di bravura.

Match point salvati nel secondo set

Esaminiamo più da vicino il caso specifico dei match point salvati nel secondo set. Grazie ai dati resi disponibili da IBM sui siti internet degli Slam tramite Pointstream, abbiamo la successione punto per punto della maggior parte delle partite di singolare Slam dal 2011 (solitamente quelle mancanti sono le partite giocate su campi dove non è previsto il sistema di moviola Hawk-Eye e su alcuni dei campi minori del Roland Garros). Si tratta di più di 2600 partite. In poco più di 1700, una delle due giocatrici ha avuto un match point nel secondo set. Più del 97% delle volte, la giocatrice poi è riuscita a vincere la partita – avendo bisogno in media di 1.7 match point – evitando di dover giocare il set decisivo.

Rimangono quindi 45 partite in cui una giocatrice ha avuto un match point nel secondo set non sfruttato ed è stata costretta ad andare al terzo set. È un campione ridotto e non spiega a tutti gli effetti la sequenza di eventi vista in precedenza, con un crollo nel set finale. Il 60% delle volte – vale a dire 27 partite delle 45 – la giocatrice che non è riuscita a chiudere con il match point nel secondo set, come Svitolina, ha poi perso anche il terzo set, con un punteggio in molti casi netto: in 5 delle 27 partite si è verificato un 6-0 (compreso il quarto di finale con Halep) e il punteggio medio è stato 6-2. Mai un terzo set è andato oltre 6-4.

Non necessariamente un crollo

Anche nelle altre 18 partite – cioè il 40% delle volte in cui la giocatrice con il match point non sfruttato al secondo set si è poi ripresa vincendo il terzo – ci sono stati set piuttosto a senso unico. Infatti, la giocatrice che ha poi perso il terzo set è riuscita a fare in media solo 2.3 game, e anche qui mai meglio di 6-4.

Di fronte a così poche partite, non sembra ragionevole concludere che un margine 60/40 possa essere considerato una legge universale nel tennis. Tuttavia, rappresenta una prova del fatto che le giocatrici non necessariamente crollano dopo aver mancato un match point per una vittoria in due set. Non vi è certezza che quello che è successo a Svitolina possa accadere di nuovo nella prossima partita.

Simona Halep and Recoveries From Match Point Down

Sui punti più importanti, i colpi si accorciano

di Jeff Sackmann // TennisAbstract

Pubblicato il 2 giugno 2017 – Traduzione di Edoardo Salvati

Nonostante il nome, gli errori non forzati possono avere un lato positivo. In alcune partite, la giusta tattica prevede un gioco più aggressivo e per colpire più vincenti la maggior parte delle giocatrici (o giocatori) commette anche più errori. Contro alcuni avversari, aumentare il conto dei non forzati – sempre bilanciato da un incremento nei vincenti o in altri colpi a chiusura favorevole del punto – potrebbe essere l’unico modo per vincere.

La settimana scorsa, ho mostrato che uno dei motivi dell’uscita al primo turno di Angelique Kerber al Roland Garros 2017 è stato il numero inusitato di errori nei momenti più importanti.

Come sottolineato da Carl Bialik nel nostro ultimo podcast, non è però tutto qui. Se Kerber infatti avesse giocato in modo più aggressivo nei punti più importanti – una delle possibili cause per l’aumento del numero di errori – anche la sua frequenza di vincenti sarebbe potuta essere più alta. Con un punteggio di 6-2 6-2 in suo sfavore, è difficile pensare che Kerber abbia realizzato più vincenti di non forzati, come infatti non è stato. L’ipotesi di Bialik rimane però valida e vale la pena di sottoporla all’esame numerico.

La leva media di ogni punto in ogni partita

Per farlo, ricapitoliamo i dati a disposizione: 500 partite di singolare femminile degli ultimi quattro Slam e le partite dei primi quattro turni del Roland Garros 2017. Misurando l’importanza di ciascun punto, siamo in grado di determinare la leva (LEV) media di ogni punto in ogni partita, insieme alla LEV media dei punti che sono terminati con un errore non forzato o con un vincente.

Nell’analisi precedente, ho trovato che gli errori non forzati di Kerber nella sua sconfitta al primo turno avevano una LEV media del 5.5%, rispetto a una LEV del 3.8% di tutti gli altri punti. Per lo scopo di questa analisi, utilizziamo la LEV media come parametro di riferimento: la LEV media di 5.5% degli errori non forzati risulta essere maggiore anche della LEV media del 4.1% di tutta la partita.

Per quanto riguarda i vincenti? I 15 vincenti di Kerber sono arrivati su punti con una LEV media del 3.9%, inferiore alla media della partita. Il caso è dunque chiuso: sui punti più importanti, Kerber aveva più probabilità di commettere un errore e meno probabilità di colpire un vincente.

Effetto ridotto

Sull’intero campione, le giocatrici commettono più errori e tirano meno vincenti nei momenti cruciali, ma solo in misura lieve. I punti che terminano con un errore sono circa l’1% più importanti della media (in percentuale e non in termini di punti percentuali, quindi 4.14% invece di 4.1%), mentre i punti che terminano con un vincente sono circa il 2% meno importanti della media.

Nei momenti più significativi, le giocatrici aumentano la frequenza dei vincenti circa il 39% delle volte, e migliorano il rapporto vincenti su non forzati circa il 45% delle volte. Questo a dire che si osserva un effetto a livello di circuito sui punti più importanti, ma di ordine piuttosto ridotto.

Naturalmente, la sconfitta di Kerber al primo turno non è indicativa del modo in cui ha giocato, in generale, negli Slam. Nell’articolo della settimana scorsa, ho citato le quattro giocatrici che meglio sono riuscite a ridurre gli errori nei punti più importanti: Kerber, Agnieszka Radwanska, Timea Bacsinszky, e Kiki Bertens.

Sia Kerber che Radwanska hanno colpito meno vincenti sui punti importanti, ma Bacsinszky e Bertens hanno trovato la giusta combinazione, colpendo qualche vincente in più all’aumentare della pressione. Tra le giocatrici con più di 10 partite Slam giocate dal Roland Garros 2016, Bacsinszky è l’unica a colpire sui punti più importanti un numero maggiore di vincenti rispetto a non forzati più del 75% delle volte.

La passività di Kerber

Rispetto alle sue colleghe, la tattica di Kerber nei momenti che più contano è incredibilmente passiva.

La tabella riepiloga le 21 giocatrici per cui ho a disposizione dati su almeno 13 partite. La colonna “Ind NF” (indice errori non forzati) è simile alla statistica usata in precedenza, e mette a confronto l’importanza media dei punti che terminano con errori con i punti medi.

La colonna “Ind V” (indice vincenti) esprime lo stesso rapporto, ma per i punti che terminano con vincenti, e la colonna “In V+NF” si riferisce – si può immaginare – a una combinazione (ponderata) dei due valori, che serve come estrema approssimazione di una tattica aggressiva sui punti importanti, per la quale valori inferiori a 1 indicano un approccio più passivo di quello tipico di una giocatrice e valori superiori a 1 il contrario.

Giocatrice      Partite  Ind NF  Ind V  Ind V+NF   
Kerber          20       0.92    0.85   0.88  
Cornet          13       0.92    0.87   0.94  
Radwanska       17       0.91    0.95   0.95  
Halep           19       0.93    0.94   0.95  
Stosur          13       0.95    0.98   0.96  
Bacsinszky      14       0.89    1.02   0.97  
Svitolina       15       1.02    0.95   0.97  
Pliskova        18       0.97    0.98   0.97  
Wozniacki       14       0.93    1.00   0.97  
Konta           13       1.00    0.97   0.98  
Garcia          14       0.94    1.02   0.98  
Kuznetsova      17       0.96    0.98   0.99  
Muguruza        20       1.02    0.94   0.99  
V. Williams     25       1.00    0.97   0.99  
Vesnina         13       0.96    1.03   0.99  
Pavlyuchenkova  15       1.03    0.99   0.99  
Vandeweghe      13       1.08    0.95   1.01  
Keys            13       1.01    1.02   1.01  
S. Williams     27       0.99    1.05   1.02  
Suarez Navarro  14       1.00    1.14   1.05  
Cibulkova       14       1.11    1.03   1.07

Il valore combinato di Kerber la separa dal resto del gruppo. I suoi colpi a chiusura del punto – sia vincenti che errori, ma specialmente vincenti – si verificano sproporzionatamente sui punti meno importanti, e l’effetto complessivo ha un valore doppio di quello di Alize Cornet, la giocatrice immediatamente dietro Kerber in quanto a passività nei momenti più importanti. Tutte le altre giocatrici ottengono valori così vicini alla neutralità (valore 1), che eviterei di trarre qualsiasi conclusione sulla loro tattica nei punti a maggiore pressione.

Troppa difesa, poco spazio a errori

Anche quando Kerber vince, ci riesce con un’efficace fase di difesa nei punti chiave. Nelle ultime 20 partite Slam, solo in due occasioni ha colpito vincenti su punti particolarmente importanti (casualmente, una di queste due partite è stata la finale degli US Open 2016).

In generale, il suo stile di gioco più passivo funziona e le ha permesso di vincere 16 delle partite considerate. Ma un tennis basato sulla difesa non lascia troppo spazio per errori, metaforicamente e letteralmente. Nonostante fosse una tattica da tempo codificata, una scarsa esecuzione le è costata la sconfitta contro Makarova.

Smaller Swings In Big Moments

Nel tennis non è come nel torneo NCAA di basket

Percentuale cumulativa di vittoria attesa

KenPom

OddsPortal

TennisAbstract

FirstBallIn

Soddisfare tutti i criteri

Condividi:

Simulazioni del tabellone

La visualizzazione a mappa di calore

Condividi:

Sorprendono risultati alquanto prevedibili sull’erba

Al meglio sul cemento e divergenza tra terra ed erba

L’erba è la superficie più pronosticabile di quelle usate nei tornei Slam!

Contesto inalterato

Uniformità di superficie

Condividi:

L’incidenza di tre diversi metodi di assegnazione delle teste di serie

I pronostici di vittoria

La probabilità per le semifinali

Si riduce la probabilità per i giocatori fuori pronostico

Condividi:

Età relativa

Gruppo esclusivo

Non c’è una risposta definitiva

Condividi:

Quanto contano davvero le vittorie e le sconfitte negli scontri diretti?

Scontri diretti contro classifica

Vedute più ampie, simili conclusioni

Ragione contro intuito

Gli scontri diretti sono eccessivamente influenzati da elementi esterni

Vantaggi incorporati nel sistema di classifica

Condividi:

I giocatori nei primi 25 del mondo continuativamente dal 2014

Al settimo posto per punti vinti al servizio

All’ottavo posto per punti non fatti vincere all’avversario

Al decimo posto nella differenza tra i due valori

Non trasforma più palle break degli altri

Non affronta un livello di competizione più modesto

Vittorie Pitagoriche

Al sesto posto per percentuale di vittorie effettive

Demolisce i più deboli e vince più delle attese contro i più forti?

Cosa significa tutto questo (se significa qualcosa)?

Condividi:

E le sconfitte inequivocabili?

Una vendetta al 29%

C’è un effetto di selezione del campione?

Altri esempi

Condividi:

Chi vince il secondo set ha un leggero vantaggio all’inizio del terzo

Match point salvati nel secondo set

Non necessariamente un crollo

Condividi:

La leva media di ogni punto in ogni partita

Effetto ridotto

La passività di Kerber

Troppa difesa, poco spazio a errori

Condividi: