Due macchine da servizi, zero tiebreak

di Jeff Sackmann // TennisAbstract

Pubblicato il 3 settembre 2018 – Traduzione di Edoardo Salvati

I molti risultati contro pronostico agli US Open 2018 (non da ultima la sconfitta di Roger Federer al quarto turno per mano di John Millman, n.d.t.) non reggono il confronto con il sorprendente andamento della partita tra John Isner e Milos Raonic, valida per un posto nei quarti di finale. Inser ha vinto con il punteggio di 3-6 6-3 6-4 3-6 6-2, perdendo il servizio due volte e conquistando quello di Raonic quattro volte. In poche altre occasioni il tiebreak era cosa certa, eppure i due giocatori dalla statura fuori scala non lo hanno nemmeno sfiorato.

Nei cinque precedenti incontri, è stato più probabile per Isner e Ranoic arrivare a due tiebreak che a uno solo, e si è trattato per la maggior parte di partite al meglio dei tre set, non il format al meglio dei cinque set degli Slam. Nei 13 set giocati, 9 sono andati al tiebreak.

Nel 2017, il 45% dei set giocati da Isner sono stati dei tiebreak, mentre per Raonic quasi il 25%. Tra tutti e due, hanno giocato la partita più lunga della storia del tennis, la semifinale più lunga di uno Slam e la partita più lunga alle Olimpiadi. Sono davvero insuperabili nel tenere il servizio e davvero deboli a fare il break.

Grandi speranze

La probabilità che Isner e Raonic giochino un tiebreak dipende da alcune ipotesi di base. Se Raonic servisse come ha fatto nelle 52 settimane precedenti, la sua percentuale di punti vinti al servizio (PVS) sarebbe del 72.8%, che equivale a tenere il servizio il 93% delle volte. Se usiamo la PVS di Isner effettiva della partita di 74.3%, siamo di fronte al servizio tenuto il 94.4% delle volte. Se usiamo invece l’incredibile PVS di Isner di 76.5% derivante dalle altre partite contro Raonic, abbiamo un corrispondente servizio tenuto del 96%. Sembrano tutti valori molto alti ma, come vedremo, le differenze esistenti finiscono per incidere non poco sulla probabilità.

Ipotesi

Farò i calcoli in funzione di tre categorie di ipotesi:

  1. gli scontri diretti. In cinque partite (quattro su cemento e la quinta a Wimbledon 2018), Isner ha vinto il 76.5% dei punti al servizio, contro il 71.4% di Raonic. Significa tenere il servizio rispettivamente il 96.0% e il 91.7% delle volte.
  2. le ultime 52 settimane (corrette). Su tutte le superfici e dagli US Open 2017, Isner ha vinto il 73.6% dei punti al servizio, contro il 72.8% di Raonic. Sono numeri però ottenuti in presenza di un avversario medio. Entrambi, e specialmente Isner, hanno un gioco alla risposta inferiore alla media. Se correggiamo la PVS di ciascuno per la frequenza di punti vinti alla risposta (PVR) si ottiene il 75.5% per Isner e il 78.5% per Raonic. In termini di partita giocata, corrispondono a servizi tenuti rispettivamente per il 95.3% e il 97.1%.
  3. il quarto turno a Flushing Meadow. Isner ha vinto il 74.3% dei punti al servizio e Raonic il 68.8%. Con questi numeri non arriviamo a un pronostico reale, visto che naturalmente non avremmo potuto conoscerli prima del loro accadimento. Ma forse, componendo ogni singolo granello di informazione a disposizione in modo molto arguto, ci saremmo potuti avvicinare a un numero realistico. Sono percentuali che si traducono nel 94.4% di servizi tenuti per Isner e nell’88.5% per Raonic.

Non abbastanza tiebreak

A quanto pare, le agenzie di scommessa davano la probabilità di almeno un tiebreak al 95%. Questo è in linea con le mie previsioni, anche se le specifiche ipotesi influenzano il risultato in modo rilevante.

Ho calcolato qualche probabilità per ogni categoria di ipotesi. La prima, “p(No brk),” è la probabilità che i due giocatori tengano il servizio per 12 game. Non è l’unico modo per arrivare al tiebreak, ma ricomprende la maggior parte delle possibilità. La seconda, “p(TB)” è il risultato di una simulazione Monte Carlo per far vedere la probabilità che un set qualsiasi finisca al tiebreak. La terza, “eTB”, rappresenta il numero atteso di tiebreak sapendo che Isner e Raonic giocheranno cinque set. L’ultima, “p(1+ TB)” è la probabilità che la partita abbia almeno un tiebreak in cinque set.

Visto il tennis espresso dai due giganti durante la partita, non è impensabile che non siano mai andati sul 6-6. Considerato che il gioco alla risposta di Isner ha in larga parte determinato un calo della PVS di Raonic al di sotto del 70%, ogni set aveva “solo” una probabilità del 41.2% di un tiebreak, e c’era un 7% di probabilità che un punteggio al quinto set non ne contenesse neanche uno. Le altre due categorie di ipotesi, però, indicano quel tipo di certezza nel tiebreak che si riscontra anche nelle quote degli allibratori…e di chiunque altro abbia mai visto giocare Isner e Raonic.

Conclusioni

Forse l’aspetto più strano della vicenda è che, in sei precedenti partite agli US Open 2018, Isner e Raonic hanno giocato complessivamente sette tiebreak, almeno uno in cinque delle sei partite, prima di spegnere gli entusiasmi nello scontro diretto. Conoscendo Isner, si tratta di una distrazione, e sicuramente ci regalerà uno o due tiebreak nel quarto di finale contro Juan Martin Del Potro (Isner ha poi perso 7-6 (5) 3-6 6-7 (4) 2-6, con un tiebreak vinto e uno perso, n.d.t.).

Al termine del torneo, le sue partite molto probabilmente avranno almeno uno o due tiebreak nel punteggio…tranne che contro l’altra macchina da servizi a nome Raonic. Deve essere questo il motivo per cui continuiamo a seguire il tennis: ogni partita ha il potenziale per sorprenderci, anche se in fondo è una che non ci interessava guardare.

Two Servebots and Zero Tiebreaks

Nadal ha quasi perso un set contro Ferrer?

di Jeff Sackmann // TennisAbstract

Pubblicato il 31 agosto 2018 – Traduzione di Edoardo Salvati

Gli dei del sorteggio non sono stati molto accondiscendenti con David Ferrer, facendogli trovare Rafael Nadal come avversario di primo turno della sua ultima apparizione in un torneo Slam. Ferrer ha faticato tutto l’anno e nessuno si aspettava che potesse davvero migliorare il bilancio di 6 vittorie e 24 sconfitte degli scontri diretti con Nadal.

E, infatti, non ci è riuscito, essendo stato costretto a ritirarsi a metà del secondo set per un infortunio al polpaccio. Prima di abbandonare gli US Open 2018 ha però fatto tremare Nadal, almeno un po’.

Nadal ha vinto il primo set 6-3, ma l’andamento del secondo è stato più altalenante. Nel game iniziale Ferrer ha strappato il servizio di Nadal a zero, Nadal ha immediatamente fatto il contro break e, qualche minuto dopo, Ferrer ha di nuovo fatto il break per andare avanti 3-2 e servizio.

Ha poi mantenuto il break di vantaggio fino a che la condizione fisica glielo ha consentito. Avanti 4-3 e con il servizio a disposizione dopo il cambio di campo, era a soli due game di servizio dal pareggiare la partita.

Semantica e probabilità

Questo significa che Nadal ha “quasi” perso il set? Pur non capendo i motivi che spingono le persone su internet a discutere di un tema come questo, adoro le domande probabilistiche. Se poi ci si sovrappone la semantica (la semantica!), allora diventa ancora più interessante.

Abbandoniamo per il momento la scelta delle parole e riformuliamo la domanda: tralasciando l’infortunio, qual era la probabilità di Ferrer di vincere il set? In ipotesi di parità di condizioni tra i due giocatori, è un semplice assunto da mettere alla prova del mio modello di probabilità: in un baleno si trova che dal 4*-3 Ferrer aveva circa l’85% di probabilità di vincere il set.

Forse sto andando troppo veloce, perché mi giunge già la sonora lamentela dei tifosi di Nadal sul fatto che i due giocatori non sono esattamente uguali tra loro. Nei 102 punti che i due spagnoli hanno giocato fino al ritiro, Ferrer ne ha vinti il 38% alla risposta e Nadal il 47%. In una partita al meglio dei cinque set, sono frequenze che portano Nadal ad avere il 93% di probabilità di vincere la partita.

Forse non è ancora una percentuale sufficientemente alta, ma siamo nell’intervallo giusto. Utilizzando quei dati, la probabilità di Ferrer di mantenere il vantaggio e vincere il secondo set si riduce drasticamente al 57.5%. Se vinci a malapena la metà dei punti al servizio, la probabilità di tenere due turni di servizio è inferiore al lancio della moneta. Per vincere il set è più probabile che Ferrer avrebbe dovuto fare un altro break o aggiudicarsi il tiebreak.

È una differenza decisamente rilevante rispetto alle due ipotesi iniziali: l’85% sembra abbastanza valido da rientrare nel “quasi” (anche se secondo uno studio il “quasi” ha un significato definibile da almeno il 90% di probabilità), per il 57.5% non è così.

Non siamo ancora a una conclusione definitiva. Il modello di probabilità di vittoria ignora totalmente il concetto di striscia. La formula non prevede infatti eventuali passaggi di buon o cattivo gioco, nessun calo di motivazione o di raccolta di energia addizionale per concludere un set.

Dati da partite reali

Non penso che nulla di tutto ciò si verifichi in modo sistematico, ma è comunque difficile dirimere la controversia in un senso o nell’altro. Se è possibile quindi beneficiare di dati da partite reali, bisogna farne tesoro.

E questo è proprio il caso. Iniziamo da Nadal. Dal 2011, ho trovato 69 set in cui Nadal era alla risposta sotto di un break sul 4-3 (è probabile che ce ne siano di più, perché il campione di dati a disposizione non è completo, ma le partite mancanti sono per la maggior parte casuali, quindi 69 dovrebbe essere un numero rappresentativo degli ultimi anni). Di quei 69, Nadal ha rimontato per poi vincere in 21 set, quasi esattamente il 30%.

Il gioco di Ferrer è stato più solido di quello degli avversari di Nadal (aiuta il fatto che Ferrer si è trovato contro Nadal solo una volta, mentre gli avversari di Nadal hanno dovuto giocarci tutte le volte considerate). Ho trovato 122 set in cui Ferrer serviva in vantaggio 4-3 e avanti di un break. Ha finito per vincere il set 109 volte, circa l’89%.

L’89% è certamente un numero troppo alto per lo scopo di quest’analisi: non solo Ferrer era, in media, un giocatore migliore dal 2012 a oggi rispetto a quanto non lo sia ora, ma ha anche sfruttato l’aver affrontato avversari più deboli di quelli di Nadal in quasi tutti i 122 set. L’89% è un limite superiore abbondantemente ottimistico, non lontano dal teorico 85% da cui siamo partiti.

Pur prendendo la media dei risultati effettivi di Nadal e Ferrer – circa il 90% di chiusura del set per Ferrer e il 70% per gli avversari di Nadal – parlare di 80% è ancora troppo fuori bersaglio. Come abbiamo visto, i numeri di Ferrer si riferiscono a una sua versione più forte, mentre Nadal è ancora vicino ai livelli mostrati negli ultimi cinque anni. Anche l’80% quindi significa una sovrastima della probabilità di Nadal di perdere il set.

Si rimane con un intervallo compreso tra il 57%, valore che ipotizza che Nadal avrebbe continuato a vincere circa la metà dei punti alla risposta, e l’80%, basato sull’esperienza derivante dal campo per entrambi i giocatori negli ultimi anni.

Conclusioni

Qualsiasi dato a cui si può giungere è, in definitiva, influenzato dall’opinione che abbiamo sul livello di gioco di Ferrer al momento, che non è in forma come poteva esserlo anche due anni fa ma, al tempo stesso, è abbastanza efficace da portarsi a soli due game dal vincere il set contro il numero 1 del mondo.

Serve un lavoro più dettagliato per arrivare a una stima più precisa e, anche in quel caso, comunque saremmo vincolati dallo stabilire la bravura attuale di Ferrer e il suo livello nello specifico set. Così come con la parola “quasi” ci si può riferire a un insieme di probabilità, allo stesso modo mi accontento di concludere utilizzando il mio di insieme.

Tutto considerato, si può pensare di restringere la probabilità al 65-70%, o a due su tre. È abbastanza probabile che Ferrer avrebbe vinto il secondo set contro la sua nemesi, ma non era per nulla scontato…o meglio, secondo la comune accezione della parola, non era “quasi” scontato.

Did Rafael Nadal Almost Lose a Set to David Ferrer?

Un modello per il confronto tra tornei dei primi due mesi di stagione

di John McCool // sportsbrain

Pubblicato il 9 aprile 2018 – Traduzione di Edoardo Salvati

In media, i giocatori con una classifica più alta hanno avuto la meglio nel torneo di Auckland e agli Australian Open di inizio 2018. Sulla base della classifica media del vincitore di ciascuna partita, nei tornei di Quito e Sofia il livello della competizione è stato inferiore (in termini di classifica giocatore).

IMMAGINE 1 – Confronto tra tornei di inizio 2018 in termini di classifica dei vincitori di ciascuna partita

I giocatori più vecchi hanno mediamente battuto la controparte più giovane agli Australian Open (con 0.36 anni di differenza), a Auckland (1.49) e a Pune (1.86). Si è verificato il contrario a Sydney e a Brisbane, dove il vincitore è stato in media più giovane dello sconfitto di 1.2 anni. 

IMMAGINE 2 – Confronto tra tornei di inizio 2018 in termini di differenza di età tra vincitori e sconfitti

Un modello di tipo foresta casuale (random forest) è stato costruito usando la classifica, l’altezza e l’età dei vincitori e degli sconfitti, oltre alla superficie (cemento, erba, terra) su cui si gioca.

L’apprendimento automatico del modello si è sviluppato su 330 partite, mentre è stato messo alla prova su 129 partite della stagione 2018 (compresa la Coppa Davis).

IMMAGINE 3 – Variabili del modello di tipo foresta casuale, con la classifica del vincitore a essere la più efficace nel predire l’esito di qualsiasi partita

Il modello suggerisce che le variabili più importanti per predire l’esito di una partita sono la classifica del vincitore, la superficie e la classifica dello sconfitto. L’altezza dello sconfitto insieme alla sua età e a quella del vincitore hanno avuto, all’interno del modello, un potere predittivo inferiore. Complessivamente, è stato correttamente previsto l’esito del 74.4% delle partite del campione considerato. 

Il codice per quest’analisi è disponibile qui.

Early Stages of the Tennis Season

Sull’erba nessuno come Federer

di Graeme Spence // OnTheT

Pubblicato il 29 giugno 2018 – Traduzione di Edoardo Salvati

Con otto titoli a suo nome, Roger Federer ha trionfato a Wimbledon nel singolare maschile più di qualsiasi altro giocatore. Che valutazione si può dare a otto titoli rispetto al numero di vittorie che ci saremmo attesi in questi anni dato il suo livello e quello degli avversari? E quali tra i titoli è stato il più impressionante?

Dalla prima vittoria di uno Slam a Wimbledon 2003, il rendimento di Federer a Wimbledon è stato tra i migliori in assoluto. Prima ha compiuto l’impresa di eguagliare i cinque titoli consecutivi di Bjorn Borg, poi nel 2017 – dopo quattro anni di attesa – ha vinto per l’ottava volta, superando Pete Sampras per il record di vittorie nell’era Open.

Con la possibilità di vincere il titolo numero nove nelle prossime settimane, è il momento giusto per interrogarsi sulla grandezza di Federer a Wimbledon.

Per sei volte Federer è stato la testa di serie numero 1, a indicazione del fatto che una buona parte delle sue vittorie era in qualche modo attesa. Siamo in grado di analizzare più accuratamente queste vittorie attese rispetto al suo livello di gioco e alla competizione affrontata a partire dalla prima edizione a cui Federer ha partecipato, quella del 1999? E, con i dati a disposizione, possiamo anche stabilire la vittoria più significativa?

Simulazione dei tornei

Per trovare risposta a queste domande, ho eseguito 5000 simulazioni di ogni tabellone di singolare maschile dal debutto di Federer, utilizzando le valutazioni Elo specifiche per erba dei giocatori in modo da avere la probabilità di vittoria per partita. Per ottenere il numero atteso di titoli relativo a ciascun giocatore tra il 1999 e il 2017, ho estratto la probabilità di titolo anno per anno e ho aggregato i risultati per il periodo considerato.

La tabella riepiloga il numero di titoli atteso e e quello effettivo dal 1999, per i giocatori che hanno vinto il torneo o per i quali il modello predittivo assegna un numero di titoli atteso di almeno 0.2.

Federer certamente si distingue con otto titoli all’attivo dal 1999 a fronte di un valore atteso di 4.50. Questo significa che a Wimbledon è stato eccellente, andando oltre le attese di 3.50 titoli rispetto alle valutazioni Elo, uno dei metodi attualmente più affidabili per predire i risultati del tennis professionistico.

È interessante notare che tutti i membri dei Fantastici Quattro e Sampras hanno raccolto più titoli di quanto atteso secondo le simulazioni. Si può parlare di un fattore aggiuntivo nel rendimento dettato dall’essere un “campione”, come tutti questi giocatori hanno manifestato [1]?

Non sorprende la bassa probabilità di vittoria per Goran Ivanisevic nel 2001, dato che nessuno si aspettava di vederlo alzare il trofeo da wild card del torneo!

Quale delle vittorie di Federer è stata la più impressionante?

Le otto vittorie di Federe sono chiaramente andate oltre le attese anche considerando il suo altissimo livello sull’erba. Possiamo usare questi dati per determinare quale vittoria sia stata la più significativa?

Probabilità di titolo

Analizzando le singole edizioni del torneo con le simulazioni, possiamo ricavare la probabilità di vittoria di Federer anno per anno. Si scopre che la prima vittoria nel 2003 è stata la più impressionante, visto il 9% di probabilità di vittoria all’inizio del torneo a fronte, ad esempio, di un 53% di probabilità per il titolo vinto nel 2007, come mostra l’immagine 1 (nella versione originale è possibile visualizzare i singoli valori puntando il mouse sul grafico, n.d.t.). 

Nel 2003, Federer era il terzo favorito dietro a Lleyton Hewitt, detentore del titolo, e Andre Agassi, già vincitore nel 1992 e finalista nel 1998. Le valutazioni Elo lo davano sfavorito sia nei quarti di finale contro Sjeng Schalken che in semifinale contro Andy Roddick, e favorito solo di un margine ridotto contro Mark Philippoussis in finale.

IMMAGINE 1 – Probabilità di vittoria finale a Wimbledon per Federer

Qualità degli avversari

Tramite la valutazione Elo specifica per erba di Federer è possibile calcolare la probabilità di vittoria per ognuno dei suoi titoli. Siamo anche in grado di verificare quale tra questi sia stato il più impressionante in termini di qualità degli avversari, attraverso le valutazioni Elo di questi giocatori. Così facendo rientrano nella contesa anche altri anni.

Avversario con valutazione più alta: 2005

Al momento della finale di Wimbledon 2005, la valutazione Elo specifica per erba di Roddick era di 2178, la più alta tra quelle di tutti i giocatori contro cui Federer ha giocato a Wimbledon.

Valutazione media per avversario più alta: 2006

Se si considerano i sette turni necessari alla vittoria finale, il 2006 può essere definito come l’anno più duro per Federer, con la valutazione media per avversario più alta, dovuta principalmente a un tabellone ostico nelle fasi iniziali, in cui ha dovuto giocare contro Richard Gasquet e Tim Henman nei primi due turni.

I due avversari di fila con la valutazione più alta: 2012

Nel 2012, Federer ha battuto Novak Djokovic in semifinale prima di far soffrire i tifosi inglesi sconfiggendo Andy Murray in finale. Si fatica a pensare a due turni conclusivi più difficili, espressi dalla valutazione Elo di Djokovic e Murray, rispettivamente la terza e la quarta più alta per Federer a Wimbledon.

Avversari con la valutazione più alta

Titolo numero 9?

Come si può notare, è difficile scegliere tra gli otto titoli di Federer a Wimbledon. Spetta ai suoi tifosi decidere quale sia il preferito. Con Wimbledon 2018 alle porte e con l’ennesima testa di serie numero 1, sarà in grado Federer di complicare la scelta aggiungendo un’altra vittoria?

Note:

[1] L’esempio forse più incredibile di un campione che ottiene risultati al di sopra delle attese è quello di Rafael Nadal al Roland Garros. Eseguendo le simulazioni per tutti i tabelloni di singolare maschile dalla prima partecipazione di Nadal nel 2005 si arriva a un numero di titoli attesi di 4.5. Considerando che, al momento, Nadal ha vinto ben undici volte il Roland Garros, si tratta di più di 6.5 titoli sopra le attese.

Federer has outperformed everyone on grass – including himself

Quale giocatore ha il tabellone “davvero” più duro al Roland Garros?

di Chapel Heel // FirstBallIn

Pubblicato il 25 maggio 2018 – Traduzione di Edoardo Salvati

Dopo aver letto che per l’ultimo quarto della parte bassa del tabellone di singolare maschile del Roland Garros 2018 è stata usata la parola “brutale” (o simile), sono partito prima con le mie solite simulazioni per vedere quali giocatori abbiano avuto un tabellone effettivo più favorevole.

Questo se paragonato a uno determinato dal caso, nonostante alcuni accoppiamenti siano ancora da definire (poi stabiliti alla fine delle qualificazioni e/o da ritiri, e indicati con la cella grigia, n.d.t. ) e le mie valutazioni Elo incorporino informazioni da una classifica ufficiale non aggiornata con gli ultimi risultati. Si tratta in ogni caso di differenze marginali.   

Simulazioni effettive e aggiuntive

Se non avete ancora visto quest’analisi, ho eseguito 100.000 simulazioni del tabellone per come è effettivamente definito in modo da ottenere delle previsioni (per tornei settimanali tipicamente eseguo 10.000 simulazioni).

Ho poi eseguito 100.000 simulazioni aggiuntive, di cui una è il tabellone effettivo e le altre 99.999 mescolano del tutto casualmente i giocatori fuori dalle teste di serie, mischiando inoltre le teste di serie tra le stesse posizioni previste dal sorteggio ufficiale.

Ad esempio, la testa di serie numero 1 e la numero 2 non si spostano, visto che sono sempre posizionate rispettivamente in alto e in basso al tabellone. Nella simulazione però la numero 3 e la numero 4 si scambiano tra le due posizioni in tabellone in cui possono andare, le teste di serie dalla 5 alla 8 tra le quattro posizioni in cui possono andare, e così via.

Ho riepilogato poi tutti i risultati dalle 100.000 simulazioni e li ho sottratti dalle 100.000 simulazioni del tabellone effettivo. La differenza fornisce indicazione di quanto favorevole o sfavorevole sia il tabellone effettivo per uno specifico giocatore.

Nella tabella, i numeri positivi significano che il tabellone effettivo è più favorevole al giocatore di quello casuale, mentre per i numeri negativi è esattamente il contrario.

Ho usato la forma di “mappa di calore” per rendere più facile individuare le posizioni o le sezioni in cui il tabellone effettivo è più o meno favorevole (gradazioni di rosso sono per un tabellone sfavorevole, gradazioni di verde sono per uno favorevole). Le teste di serie sono riportate in grassetto.

Who “Really” Has the Toughest Roland Garros Draw (Men)?

Previsioni per il Roland Garros 2018

di Stephanie Kovalchik // OnTheT

Pubblicato il 26 maggio 2018 – Traduzione di Edoardo Salvati

L’inizio del Roland Garros 2018 è ormai imminente. Quali sono i giocatori che gli appassionati più probabilmente vedranno nelle fasi finali del torneo? E quali, tra i principali contendenti, hanno ricevuto i favori del sorteggio?

Tabellone maschile

Tutti gli occhi naturalmente sono puntati su Rafael Nadal, con molti ad affermare che un’incredibile sua undicesima vittoria sia scontata. Quanto si può considerare Nadal un Golia a Parigi?

Sulla base delle valutazioni Elo specifiche per terra battuta e corrette per infortunio, Nadal è il favorito assoluto per il titolo: ha infatti il 38% di probabilità di vincere, più del doppio di quelle del secondo tra i favoriti, come mostrato nell’immagine 1 (nella versione originale è possibile visualizzare i singoli valori puntando il mouse sul grafico, n.d.t.).

Il 38% però non è garanzia assoluta, e lascia comunque uno spiraglio per un nuovo vincitore Slam, come ad esempio Alexander Zverev (la mia seconda scelta) o David Goffin (specialmente se le indiscrezioni dell’infortunio di Juan Martin Del Potro si rivelano corrette).

IMMAGINE 1 – Previsioni per singolo quarto dei semifinalisti e del vincitore del torneo

Nella tabella sono rappresentate le quattro prime scelte per ogni quarto. Nonostante sia l’unico giocatore ad aver battuto Nadal sulla terra nel 2018, Dominic Thiem è il quarto favorito con il 7% di probabilità di titolo. Trovandosi nella stessa parte di tabellone di Zverev, gli è dietro di poco come favorito di quel quarto.

Il sorteggio è stato accomodante sia per Thiem che Zverev, perché la loro possibile partita ai quarti di finale è l’unico vero ostacolo che entrambi hanno al passaggio in semifinale. Il quarto di Nadal, in cui ci sono anche Kevin Anderson, Diego Schwartzman e Denis Shapovalov, è quello che si rivela essere il più impegnativo, con l’impatto negativo più alto per ciascun quarto sulla probabilità di raggiungere la semifinale.

IMMAGINE 2 – Fortuna del sorteggio per il tabellone di singolare maschile del Roland Garros

In ogni caso, la differenza in termini di difficoltà tra un quarto e l’altro non è mai superiore a qualche punto percentuale. Possiamo affermare che il tabellone di singolare maschile di quest’anno è abbastanza equilibrato.

Tabellone femminile

Il tabellone femminile, come caratteristico per il 2018, è pronto a riservare alcune delle partite più competitive del torneo. Le prime due favorite sono Elina Svitolina e Simona Halep, con una probabilità di vittoria praticamente identica. E dietro di solo alcuni punti percentuali ci sono Caroline Wozniacki e Karolina Pliskova.

Jelena Ostapenko, la campionessa in carica e vincitrice a sorpresa nel 2017, è tra le favorite quest’anno, anche se in fondo all’elenco con solo l’1% di probabilità.

IMMAGINE 3 – Previsioni per singolo quarto delle semifinaliste e della vincitrice del torneo

Senza una giocatrice con più del 17% di probabilità di vincere il titolo, ci si può attendere una vera lotta nella settimana conclusiva.

E con margini così ridotti a separare le maggiori favorite di ogni quarto, la fortuna del sorteggio assume un ruolo ancora più rilevante che per gli uomini.

Analizzando l’impatto delle contendenti di ciascun quarto sulla probabilità di vittoria delle prime quattro, scopriamo che è Svitolina ad aver ricevuto una decisa spinta, grazie al fatto di essere finita nel terzo quarto, a cui è collegato un aumento nella probabilità di raggiungere la semifinale di tre punti percentuali.

IMMAGINE 4 – Fortuna del sorteggio per il tabellone di singolare femminile del Roland Garros

È andata peggio a Wozniacki, che si ritrova nell’ultimo quarto, nel quale la sua probabilità di vittoria diminuisce di quasi 5 punti percentuale, molto peggio del tabellone di Nadal, già considerato difficile. Wozniacki infatti potrebbe avere sulla strada per la semifinale due tra le prime dieci favorite, cioè Petra Kvitova e Darya Kasatkina.

Le possibilità di Serena Williams

Si è parlato molto questa settimana della mancata assegnazione di una testa di serie a Serena Williams. E ci si sarebbe aspettato che fosse quello di Pliskova il tabellone più accidentato, con un possibile sedicesimo di finale contro Williams.

Considerati però l’assenza e il rendimento poco brillante di Williams nel 2018, la valutazione Elo la pone solo al 22esimo posto tra le favorite. Sarebbe quindi emozionante vedere Williams e Pliskova darsi battaglia per un posto nei quarti di finale, ma la possibilità che questo accada è ridotta.

Proprio per la mancanza di un verdetto certo, si può essere sicuri di assistere a due eccitanti settimane di tennis.

French Open Predictions

Previsioni per il Miami Masters 2018

di Stephanie Kovalchik // OnTheT

Pubblicato il 21 marzo 2018 – Traduzione di Edoardo Salvati

Dopo un avvio di stagione praticamente perfetto, con 17 partite vinte e 1 sconfitta, Roger Federer si presenta al Miami Masters con una probabilità di vittoria superiore al 50%, grazie anche a un tabellone favorevole. Chi sono gli altri pretendenti al titolo meglio posizionati, nel singolare maschile e in quello femminile?

Pronostici maschili

Con l’ausilio delle valutazioni Elo elaborate dal Game Insight Group, siamo in grado di pronosticare l’esito più probabile per il Miami Masters 2018, sulla base di 5000 simulazioni del tabellone del torneo.

Pur avendo mancato l’opportunità di vincere il suo primo Master della stagione solo qualche giorno fa a Indian Wells, Federer è il favorito indiscusso per la vittoria finale.

Con una probabilità del 55%, tiene a larga distanza – quasi tre volte tanto – il secondo tra i favoriti, Novak Djokovic. Sono numeri riflettono il predominio di Federer sul cemento a partire dagli Australian Open 2017 e il rendimento sotto le attese, per via di infortuni o assenze, di alcuni dei giocatori più forti del circuito.

Juan Martin Del Potro è al terzo posto e la probabilità di replicare il successo di Indian Wells è a un solido 11%. Per gli altri le previsioni sono meno generose, ma tra i nomi più accreditati troviamo alcuni dei giovanissimi più noti, vale a dire Nick Kyrgios, Alexander Zverev e Hyeon Chung.

Il quarto più duro

IMMAGINE 1 – Probabilità di vittoria in percentuale per i maggiori pretendenti al titolo

Non aveva certamente bisogno di fortuna, ma finendo nel primo quarto di finale (il più in alto della parte alta del tabellone) Federer ne ha ricevuta una buona dose. Nessun giocatore del quarto è tra i primi 10 favoriti e il più forte, Kevin Anderson, contro il quale Federer potrebbe giocare in semifinale se entrambi vincono i rispettivi turni, ha meno dell’1% di pronostico per la vittoria finale.

Qualsiasi altro giocatore di vertice aiutato dalla fortuna a finire nel primo quarto avrebbe visto il suo pronostico guadagnare dieci punti percentuali.

IMMAGINE 2 – Variazione della probabilità di vittoria del torneo in punti percentuali in funzione del quarto di riferimento

Il terzo quarto invece è sovraffollato di potenziali vincitori, a renderlo di gran lunga il più difficile. Vi sono finiti infatti tre dei quattro maggiori aspiranti al titolo, Djokovic, Del Potro e Grigor Dimitrov. Se Miami poteva essere il torneo per Djokovic per far vedere di essere tornato in piena forma, la sfortuna gli ha reso il compito molto più complicato di quanto avrebbe potuto essere.

Pronostici femminili

È difficile ipotizzare per il tabellone femminile dei pronostici più diversi da quelli visti in campo maschile. Se è consentito riassumere la situazione degli uomini con la parola “a senso unico”, per le donne le previsioni sono di un torneo estremamente equilibrato, in special modo tra le più forti, così da aumentare le attese per un finale al cardiopalmo.

IMMAGINE 3 – Probabilità di vittoria in percentuale per le maggiori pretendenti al titolo

Con una probabilità del 14% Simona Halep è la favorita, appena sopra a Caroline Wozniacki, che l’ha battuta agli Australian Open 2018 negandole il suo primo Slam.

Le rimanenti giocatrici tra le prime otto teste di serie sono sperate solo da qualche punto percentuale, compresa Serena Williams, che, prima del 2017, raramente avrebbe avuto un pronostico di settima favorita per il torneo. Un altro elemento che sottolinea la competitività e l’equilibrio del circuito femminile nel 2018.

Il quarto più duro

Anche per le donne, come per gli uomini, è il terzo quarto a rappresentare la parte di tabellone in cui la fortuna è stata assente. Troviamo Elina Svitolina e altre tre giocatrici delle prime 10 favorite, tra cui Petra Kvitova, William e Darya Kasatkina, la finalista a Indian Wells. È il quarto con il maggior numero di pretendenti al titolo.

IMMAGINE 4 – Variazione della probabilità di vittoria del torneo in punti percentuali in funzione del quarto di riferimento

Se Halep fosse finita nel terzo quarto, avremmo visto la sua probabilità di vittoria diminuire di ben 10 punti percentuali. Anche lei, come è stato per Federer, è tra le giocatrici che più hanno beneficiato dei regali della fortuna.

Forecasts for the 2018 Miami Masters Title

Le previsioni Elo migliorano includendo Future e Challenger?

di Stephanie Kovalchik // OnTheT

Pubblicato il 25 febbraio 2017 – Traduzione di Edoardo Salvati

Considerata la stratificazione di tornei esistente nel circuito professionistico, a partite dai Future 10K fino agli Slam, mi sono spesso domandata come le varie categorie dovrebbero essere inserite nelle previsioni Elo e se alcuni tornei dovrebbero essere completamente esclusi.

La metodologia standard Elo assegna ai giocatori una “spinta” maggiore (il 10% per l’esattezza) per partite vinte negli Slam, ma gestisce allo stesso modo le vittorie contro avversari simili in ogni altro evento.

La maggior parte delle valutazioni Elo che ho usato in passato teneva in considerazione risultati da tornei almeno 250 (o dagli International per le donne). Recentemente, ho aggiornato le valutazioni includendo tutti i tornei per professionisti, cercando di vedere che tipo di differenza questo comportasse ai fini delle previsioni per le categorie di torneo più prestigiose.

Con un campione dati di partite dal 1991 a oggi, includendo Future e Challenger la radice dell’errore quadratico medio (RMSE) per gli uomini mostra un cambiamento minimo: subisce una riduzione modesta per gli eventi di fascia più bassa e si assottiglia progressivamente all’aumentare dell’importanza del torneo (nella versione originale è possibile visualizzare i singoli valori puntando il mouse sul grafico, n.d.t.). 

IMMAGINE 1 – RSME Elo per fascia di torneo del circuito maschile

Perché gli eventi di fascia più bassa non hanno un impatto più sostanziale sulle previsioni?

Se mettiamo a confronto diretto le previsioni in presenza e in assenza di Future e Challenger, siamo di fronte a una correlazione positiva, che aumenta nelle fasce di torneo superiori.

Ci può essere molta varianza per alcuni intervalli delle valutazioni, ma questo effetto tende a maggiore ampiezza quando ci si avvicina a previsioni del 50%. Considerato il modesto miglioramento, sembra che, con previsioni che differiscono, l’inclusione dei risultati di tutte le partite sia più spesso sfavorevole.

IMMAGINE 2 – Previsioni di esito delle partite del circuito maschile con e senza eventi di fasce più basse

Le tendenze negli errori delle previsioni Elo per il circuito femminile mostrano risultati simili. Si osservano miglioramenti in larga parte negli eventi International quando viene incluso lo storico di tutti i tornei, mentre per le altre fasce si tratta di incrementi ridotti.

IMMAGINE 3 – RSME Elo per fascia di torneo del circuito femminile

Anche per le correlazioni tra i due tipi di metodi Elo si presentano tendenze simili a quanto visto per gli uomini. Sono correlazioni positive ma debolmente associate, specie nell’intervallo centrale delle previsioni.

IMMAGINE 4 – Previsioni di esito delle partite del circuito femminile con e senza eventi di fasce più basse

Perché la differenza tra i due metodi Elo non è più sostanziale?

Credo sia un problema di rappresentazione.

Se prendiamo il solo 2015, ci sono stati 3324 giocatori che hanno partecipato ad almeno un torneo Future. Tra questi, solo 18 hanno giocato partite di uno Slam, cioè lo 0.5%! Il numero di giocatori nel tabellone principale di un 250 o un Master è più alto – sono stati 73 – ma comunque uno smunto 2% dei giocatori dei Future.

Questo esempio sottolinea che alcune fasce di tornei sono una sorta di mini circuiti con molti giocatori al loro interno che però raramente si avventurano a giocare al di fuori.

Nel voler allargare le previsioni Elo includendo più risultati, il problema finisce per assomigliare sempre più alla difficoltà di previsione del livello di bravura delle squadre che partecipano al March Madness della NCAA.

Emerge quindi la sostanziale questione di come poter valutare accuratamente il livello di bravura di un giocatore nel momento in cui interi segmenti del circuito raramente giocano contro.

Does Including Futures and Challenger Events in Elo Improve Predictions?

Tendenze negli errori delle previsioni Elo

di Stephanie Kovalchik // OnTheT

Pubblicato il 17 febbraio 2017 – Traduzione di Edoardo Salvati

In un precedente articolo, ho iniziato a esaminare le tendenze nella disposizione degli errori attraverso le previsioni Elo, cercando di capire come un vantaggio al servizio possa influenzare la capacità predittiva del sistema Elo.

Rendimento al servizio nei tornei e nelle partite

L’analisi delle frequenze di errore predittivo Elo rispetto al rendimento medio al servizio di un giocatore in un anno ha evidenziato la maggior parte degli scostamenti per i giocatori con un servizio medio.

Lo scopo dell’articolo di oggi è verificare il rendimento al servizio nei tornei e nelle partite per avere una maggiore comprensione della bontà delle previsioni Elo tra servizi differenti e per giocatori migliori o peggiori al servizio. 

Nella prima parte, analizzo il modo in cui variano gli errori predittivi Elo per le partite del circuito maschile (dal 1991 a oggi) con il rendimento medio al servizio nel torneo considerato, una misura indiretta della velocità della superficie.

L’immagine 1 mostra una correlazione negativa poiché gli errori predittivi Elo tendono a diminuire all’aumentare del vantaggio medio al servizio, cioè la velocità della superficie (nella versione originale è possibile visualizzare i singoli valori puntando il mouse sul grafico, n.d.t.). Un torneo con una percentuale media al servizio che scende fino al 57% ha una radice dell’errore quadratico medio (RMSE) di 0.48 rispetto allo 0.45 di un torneo con una media del 67%, cioè una riduzione di quasi il 10%. 

IMMAGINE 1 – Errore predittivo Elo e vantaggio al servizio del torneo

Il grafico suggerisce una tendenza generale di maggiore accuratezza predittiva nei tornei con più alta velocità della superficie, ma non segnala se, in uno specifico torneo, l’errore varia per giocatori migliori al servizio o peggiori. Cosa succede infatti se si è giocatori con un’ottimo servizio su una superficie veloce? O un giocatore dal servizio medio su una superficie lenta?

Che errore dovremmo attenderci per diversi giocatori al servizio in un torneo con – in media – lo stesso vantaggio al servizio?

L’immagine 2 mostra gli errori predittivi Elo rispetto al rendimento al servizio in una partita. Ogni riquadro corrisponde a una diversa velocità di superficie, misurata come rendimento medio al servizio in quel torneo. Per tornei che si posizionano nell’intervallo dal 59% al 68% di vantaggio al servizio – la percentuale tipica per il circuito maschile – si osserva una forma ad arcobaleno, a indicazione del fatto che l’errore predittivo è più basso per i giocatori peggiori al servizio e per quelli migliori. Elo è tratto in confusione dai giocatori dal servizio medio.

È interessante notare come i valori massimi di errore varino in funzione della velocità della superficie. Le linee verticali nei grafici rappresentano il vantaggio medio al servizio per ciascun torneo e si vede come – in generale – intersechino la curva nel punto più alto.

IMMAGINE 2 – Errore predittivo Elo rispetto al vantaggio al servizio del torneo e vantaggio al servizio del giocatore

Si ricava dalle analisi che Elo non ha solo problemi nelle previsioni per un giocatore dal servizio medio all’interno di una stagione, ma è anche una metodologia soggetta all’errore nel caso di quei giocatori che si posizionano più vicini al rendimento medio in uno specifico torneo, presumibilmente perché è più difficile distinguere i giocatori medi di quanto non lo sia distinguere quelli agli estremi.

Le valutazioni Elo standard nel tennis non considerano il rendimento al servizio del torneo o il rendimento al servizio del giocatore. Sono però entrambi fattori che determinano errori predittivi. La capacità Elo potrebbe essere quindi migliorata includendo, oltre alle vittorie, il rendimento al servizio.

Elo Prediction Accuracy and Court Pace

Un confronto tra le prestazioni di alcuni modelli predittivi

di Peter Wetz // TennisAbstract

Pubblicato il 15 gennaio 2017 – Traduzione di Edoardo Salvati

Con la recente diffusa curiosità intorno alle valutazioni Elo nel tennis, su TennisAbstract come su altri siti quali FiveThirtyEight o StatsOnTheT, è emersa anche la facoltà di pronosticare i risultati delle partite.

Non è quindi una forzatura volersi interrogare sulle prestazioni dei diversi modelli predittivi disponibili e, ancora più interessante, verificare come si comportino rispetto ad altri “modelli”, ad esempio la classifica ufficiale ATP o il mercato delle scommesse, interamente considerato.

Pronostici di cinque modelli

Ai fini di questa – per ammissione limitata – analisi, sono stati raccolti i pronostici (convertiti in percentuale dalle quote con cui sono stati espressi) di cinque modelli: FiveThirtyEight, TennisAbstract, Riles, la classifica ufficiale ATP e il mercato delle scommesse Pinnacle per gli US Open 2016.

I primi tre modelli si basano sulle valutazioni Elo, mentre per dedurre i pronostici dalla classifica ATP è stata usata una formula specifica [1]. Per Pinnacle, uno dei maggiori allibratori (bookmaker) nel tennis, la probabilità in percentuale è calcolata rispetto alle quote fornite (a cui è sottratto l’overround, cioè il margine del bookmaker) [2].

Successivamente, si confrontano per ciascun modello pronostici e risultati effettivi, chiedendosi se un giocatore considerato favorito – quindi con P(a) > 0.5 – abbia effettivamente vinto la partita.

Applicando questa procedura a ciascuna partita e a ciascun modello (escludendo ritiri pre-partita o durante la partita) si ottengono i seguenti risultati.

Modello		  Pronostico corretto (%)
Pinnacle	  76.92%
FiveThirtyEight   75.21%
TennisAbstract	  74.36%
Classifica ATP	  72.65%
Riles		  70.09%

Si osservano dalla tabella le percentuali con cui i pronostici si sono rivelati corretti. Il modello delle scommesse (basato sulle quote di Pinnacle) è al primo posto seguito dai modelli Elo di FiveThirtyEight e TennisAbstract.

È interessante notare come il modello Elo di Riles sia superato dai pronostici dedotti dalla classifica ufficiale ATP. Vista la possibilità di utilizzare molti parametri per ritoccare un modello Elo, Riles ha ancora ampi margini di miglioramento.

Va detto però che prendere in considerazione solamente le percentuali con cui un pronostico si è rivelato vero non è sufficientemente rappresentativo. Esistono in realtà indici più granulari per valutare la prestazione di un modello predittivo.

Indici più granulari

La Calibrazione (Calibration) ad esempio cattura la capacità di un modello di fornire una probabilità predittiva vicina alla probabilità reale. In altre parole, in un modello ideale il 70% dei pronostici dovrebbe essere vero esattamente nel 70% dei casi.

La Risoluzione (Resolution) misura lo scarto tra i pronostici e la media complessiva. La logica sottostante è che usare valori medi attesi consente di fare pronostici ragionevolmente ben calibrati, ma non è altrettanto utile quanto un metodo che raggiunge lo stesso livello di calibrazione tenendo conto delle circostanze del momento. In altre parole, più sono estreme le previsioni (ma comunque corrette), migliore è il modello.

Nella tabella, insiemi di pronostici sono raggruppati per determinati intervalli di probabilità forniti dal modello ed è mostrata, per singolo intervallo, la percentuale reale dei pronostici. Questo permette anche di calcolare valori di Calibrazione e Risoluzione per ogni modello.

Come si può osservare, non sempre i pronostici sono perfettamente allineati a quanto previsto dagli intervalli di probabilità. Alcune deviazioni – come ad esempio il fatto che per l’intervallo 90-100% del modello Riles la percentuale reale dei pronostici è stata solo del 67% – possono essere spiegate dalle ridotte dimensioni del campione a disposizione (solo 3 occorrenze in quel caso).

Ci sono però due casi interessanti, evidenziati in grassetto, in cui il campione è più rifinito e che hanno catturato la mia attenzione.

Sia il modello Riles che Pinnacle sembrano fortemente sottostimare (in modo statisticamente significativo) le percentuali di pronostico nell’intervallo 60-69%. In altre parole, la probabilità fornita da entrambi i modelli avrebbe dovuto essere più alta perché, nella realtà, la probabilità con cui si è verificata l’occorrenza è stata, rispettivamente, dell’86% e del 91% [3].

Calibrazione, Risoluzione e Indice di Brier

Per i patiti delle scommesse, il fatto che Pinnacle sottostimi i favoriti è un aspetto interessante, perché, come dicono quelli che puntano soldi, potrebbe lasciare spazio di guadagno. Per Riles invece, può essere un buon punto di partenza per migliorare gli algoritmi del modello.

Le tre colonne più a destra mostrano la Calibrazione (minore il valore, migliore la capacità predittiva), la Risoluzione (maggiore il valore, migliore la capacità predittiva) e l’indice Brier (minore il valore, migliore la capacità predittiva).

L’indice Brier unisce Calibrazione e Risoluzione (e l’incertezza degli esiti) in un singolo valore di misurazione dell’accuratezza dei pronostici. Anche i modelli di FiveThirtyEight e Pinnacle (per il campione considerato) ottengono buone prestazioni. Più indietro troviamo i modelli di TennisAbstract e della classifica ufficiale ATP, rispettivamente in terza e quarta posizione. Il modello Riles è il peggiore sia per Calibrazione che Risoluzione, per questo si trova al quinto posto.

Da ultimo, vorrei includere una diffusa rappresentazione grafica utilizzata per mostrare visivamente l’andamento di un insieme di pronostici.

Il diagramma di affidabilità confronta la frequenza effettiva di validità dei pronostici con la probabilità associata al pronostico (in modo simile a quanto fatto nella tabella precedente).

IMMAGINE 1 – Diagramma di affidabilità

Più la linea colorata si trova vicino alla linea nera, più i pronostici del relativo modello sono affidabili. Se la linea di un modello è sopra alla linea nera, i pronostici di quel modello tendono a sottostimare, tendendo a sovrastimare nel caso opposto.

Considerando di aver preso in esame un solo modello e avendo dovuto quindi lavorare con un campione ridotto (117 pronostici), ci si aspettano ampie ondulazioni delle curve.

Si può comunque notare che il modello basato sulla classifica ufficiale ATP riesce con molta efficacia a evitare di sovrastimare i pronostici, pur essendo noto per una minore accuratezza predittiva rispetto alle valutazioni Elo. 

Conclusioni

In conclusione, l’analisi mostra la possibilità di mettere a confronto tra loro modelli predittivi nel tennis con un metodo scientifico. Spero inoltre di aver evidenziato alcune delle aree in cui un modello funziona efficacemente e in cui invece può essere migliorato.

Naturalmente, si potrebbe rendere l’analisi più approfondita confrontando, ad esempio, le prestazioni di ciascun modello rispetto a diversi tipi di giocatori (basandosi sulla classifica), superfici, etc. Ma è oggetto di un eventuale futuro articolo.

Note

[1] P(a) = ae / (ae + be) con a i punti classifica del giocatore A, b i punti classifica del giocatore B ed e la costante, a cui viene assegnato, per i tabelloni di singolare del circuito maschile, il valore di 0.85.

[2] Il mercato delle scommesse non è un modello in sé, vale a dire che l’obiettivo dei bookmaker è semplicemente quello di organizzare le quote in modo da ottenere un profitto. Questo significa che le quote riflettono, nella sostanza, l’intelligenza collettiva, rendendo il mercato delle scommesse molto affidabile.

[3] Un esempio di occorrenza in cui Pinnacle ha sottostimato rispetto ad altri modelli, tutti invece con stime più alte, è la partita di trentaduesimi di finale tra Ivo Karlovic e Jared Donaldson. La probabilità di vittoria per Karlovic espressa in percentuale era del 64%. Gli altri modelli (ad eccezione della sottostima anche da parte di Riles) davano una percentuale del 72% (classifica ufficiale ATP), del 75% (FiveThirtyEight) e dell’82% (TennisAbstract). Karlovic ha poi vinto in tre set. Un possibile fattore d’influenza in questo caso è stato il tipo di torneo, cioè gli US Open, nel quale gli americani, più fiduciosi sulle possibilità del giocatore di casa, hanno scommesso su Donaldson. Per bilanciare le scommesse, Pinnacle ha abbassato le quote su Donaldson rendendo di conseguenza più alte (e quindi una probabilità espressa in percentuale più bassa) quelle di Karlovic.

Measuring the Performance of Tennis Prediction Models