Il più grande archivio italiano di analisi statistiche sul tennis professionistico. Parte di Tennis Abstract

Probabilmente il più grande archivio italiano di analisi statistiche sul tennis professionistico. Parte di Tennis Abstract

Gestire infortuni e assenze con il sistema Elo

ULTIMI ARTICOLI

ULTIMI ARTICOLI

Pubblicato il 15 maggio 2018 su TennisAbstract – Traduzione di Edoardo Salvati

// Negli ultimi mesi, ogni volta che ho fatto ricorso alle mie classifiche maschili e femminili sulla base del sistema Elo si è resa necessaria qualche precisazione. Sono valutazioni sulle quali l’assenza dal circuito non incide, quindi Serena Williams, Novak Djokovic, Andy Murray, Maria Sharapova e Victoria Azarenka hanno mantenuto la loro posizione di vertice nelle rispettive classifiche Elo.

Essendo tra i migliori al momento dell’infortunio o dell’interruzione, anche una sequenza di risultati scadenti (o, nel caso di Sharapova, quasi un’intera stagione) non è sufficiente a relegarli di posizione.

Fare meglio di così

È un aspetto controintuitivo, e ben differente da come le classifiche ufficiali dell’ATP e della WTA si comportano nei confronti di questi giocatori o giocatrici. Il buon senso fa pensare che probabilmente i o le rientranti non sono forti come lo erano prima di una lunga pausa.

La classifica ufficiale è meno generosa, eliminando completamente il loro nome dopo un intero anno lontano dal circuito. Se Williams quasi sicuramente non è la migliore giocatrice attualmente in circolazione, di certo rappresenta un pericolo maggiore per le colleghe di quanto indichi la sua classifica di numero 454. Dobbiamo riuscire a fare meglio di così.

Prima però di sistemare l’algoritmo Elo, cerchiamo di capire cosa intendere con “meglio di così”. Appassionati e tifosi caricano di significato classifica e teste di serie, come se un numero conferisse valore a un giocatore.

Previsioni future contro orientamento al passato

Per definizione, la classifica ufficiale è orientata al passato, visto che misura il rendimento delle ultime 52 settimane, ponderate per importanza dei singoli tornei (sono poi usate per determinare le teste di serie, quindi con sguardo in avanti, ma non è un sistema disegnato per essere predittivo).

In questo modo la classifica ufficiale ci dice quanto un giocatore o una giocatrice abbiano giocato bene durante l’anno precedente. Quali che siano bravura o potenziale, Williams (e come lei Azarenka, Murray e Djokovic) non ha ottenuto molti risultati favorevoli quest’anno, e la sua classifica lo riflette.

Il sistema Elo invece è strutturato per essere predittivo. Naturalmente, può utilizzare solo risultati del passato, ma lo fa in modo tale da fornire la stima migliore del livello qualitativo espresso dai giocatori in un determinato momento, vale a dire la più accurata approssimazione di come giocheranno domani o la prossima settimana.

Le valutazioni Elo – anche quelle più ingenue che mettono a oggi Williams e Djokovic al numero 1 – sono considerevolmente più precise nel prevedere l’esito di una partita rispetto alla classifica ufficiale. Per l’obiettivo che mi sono prefissato, è questa la definizione di “meglio”, cioè valutazioni che offrano previsioni più puntuali e, per estensione, la migliore approssimazione del livello di gioco nell’ambito temporale preso in considerazione.

Penalizzazioni legate all’assenza

Al rientro sul circuito dopo un periodo molto lungo, i giocatori hanno – almeno in media e almeno temporaneamente – un livello più basso rispetto a quando si sono fermati.

In questo senso, ho identificato ogni assenza della durata minima di otto settimane nella storia dell’ATP di un giocatore con valutazione di almeno 1900 punti Elo (sotto la soglia di 1900 punti, alcuni giocatori alternano la presenza tra circuito maggiore e circuito Challenger. Il mio algoritmo Elo non comprende i risultati dei Challenger. Quindi, per giocatori di classifica inferiore, non è chiaro quali siano i periodi di interruzione e quali invece le settimane dedicate ai Challenger. Inoltre, la soglia delle otto settimane non considera il riposo tra una stagione e la successiva. Otto settimane allora potrebbero essere in realtà 16 settimane tra un torneo giocato e l’altro, includendo nell’interruzione anche il riposo a stagione terminata).

Nelle prime partite al rientro sul circuito, la valutazione Elo prima dell’interruzione ha stimato la probabilità di vittoria in eccesso del 25%, con variazioni in funzione della quantità di tempo lontano dai campi: il 17% dalle otto alle dieci settimane, quasi il 50% per un periodo dalle 30 alle 52 settimane.

Anche questa regola ha la sua eccezione, come ad esempio Roger Federer agli Australian Open 2017 e Rafael Nadal, che quest’anno ha vinto 14 partite consecutive dopo due mesi di pausa. In generale però, al rientro i giocatori hanno uno stato di forma peggiore.

Tradotto in termini Elo, un’interruzione di otto settimane comporta una perdita di 100 punti mentre una di quasi un anno, come quella in corso di Andy Murray, determina 150 punti in meno. Se si apportano queste modifiche si arriva a un miglioramento immediato nella capacità predittiva di Elo per la prima partita dal rientro e uno più limitato per le prime 20 partite.

Fattorizzare l’incertezza

Elo è impostato per fornire sempre la “stima migliore”, e quando un giocatore fa ingresso nel circuito per la prima volta, riceve una valutazione provvisoria di 1500, aggiornata a seguito di ogni partita e in funzione del risultato, del livello dell’avversario e del numero di partite giocate.

Quella dei 1500 punti è una stima puramente indicativa, quindi il primo aggiornamento diventa un passaggio molto importante. Nel corso del tempo, la grandezza dell’aggiustamento Elo diminuisce, perché si acquisiscono maggiori informazioni sul giocatore.

Se perde la sua prima partita contro Joao Sousa, la sola informazione in nostro possesso è che probabilmente non è bravo quanto Sousa: dobbiamo quindi sottrarre molti punti. Se Alexander Zverev perde da Sousa dopo più di 150 partite giocate in carriera, tra cui decine di vittorie contro giocatori più forti, comunque gli toglieremo dei punti, ma non tanti come in precedenza, perché abbiamo di lui un quadro molto più preciso.

Gestire le assenze

Dopo un’assenza però, abbiamo meno certezza che quello che conoscevamo sul quel giocatore sia ancora attuale. Djokovic è, a questo proposito, un esempio perfetto. Se perdesse sei partite su nove (come ha fatto tra il quarto turno degli Australian Open 2018 e il Madrid Masters) senza arrivare da un periodo di lontananza dal circuito, penseremmo che si trattasse di un passaggio a vuoto, e la maggior parte di noi si aspetterebbe che ne uscisse. Elo ridurrebbe la valutazione, facendolo rimanere comunque nella zona più alta.

Tuttavia, avendo saltato la seconda parte del 2017, siamo più scettici sul suo recupero, nel timore che forse non tornerà al livello di prima. Altri casi sono ancora più limpidi, come quando un giocatore rientra da un infortunio senza aver recuperato completamente la forma.

Ha senso dunque, al rientro da un’assenza, modificare il livello di aggiustamento della valutazione Elo di un giocatore. Non si tratta di una nuova idea, è anzi il concetto alla base di Glicko, un altro sistema di valutazione negli scacchi che prende spunto ed espande Elo.

In questi anni ho armeggiato con Glicko a lungo, alla ricerca di miglioramenti che si applicassero al tennis, senza ottenere grande successo. Cambiare il moltiplicatore che determina gli aggiustamenti nelle valutazioni (conosciuto come il fattore k) non migliora la capacità predittiva di Elo nel tennis ma, associato alle penalizzazioni che ho descritto per le assenze dal circuito, è in parte di aiuto.

Il succo della questione: dopo un’assenza, il moltiplicatore aumenta di un fattore 1.5 per poi gradualmente ridursi a 1 nelle successive venti partite. Un moltiplicatore flessibile apporta un leggero miglioramento all’accuratezza di Elo per quelle venti partite, seppur con una differenza minima rispetto all’effetto della penalizzazione iniziale.

Basta moniti*

(*ho pensato fosse divertente mettere un asterisco dopo “basta moniti”…)

Penalizzazioni legate all’assenza e moltiplicatori flessibili finiscono per far scendere la valutazione Elo attuale dei giocatori che si trovano nel mezzo di un periodo lontano dal circuito o che sono recentemente tornati alle competizioni, restituendo elenchi che più si avvicinano alle nostre attese e che dovrebbero fare meglio nel predire l’esito delle prossime partite.

Questi cambiamenti nell’algoritmo hanno anche un effetto ridotto sulla valutazione degli altri giocatori, perché ciascuna valutazione dipende da quella dell’avversario. È per questo che il salto fatto dalla valutazione Elo di Taro Daniel dopo aver battuto Djokovic all’Indian Wells Master non è altrettanto ampio prima dell’implementazione delle penalizzazioni.

Uomini

Per quanto riguarda gli uomini, con il nuovo algoritmo Djokovic scende di una posizione al terzo posto per Elo complessivo, Murray al sesto, Jo Wilfried Tsonga al 21esimo e Stanislas Wawrinka al 24esimo. Viste le prestazioni della stagione in corso, Djokovic è ancora piuttosto in alto, ma ricordiamo che l’algoritmo Elo tiene conto solo del rendimento in campo, cioè una pausa di sei mesi seguita da diverse sconfitte inaspettate.

L’effetto aggregato si traduce in un calo di circa 200 punti dal livello precedente all’assenza; il problema sta nel fatto che la valutazione Elo di un anno fa rifletteva l’incredibile livello di Djokovic degli ultimi tempi.

Donne

Sul fronte femminile, i risultati confermano la mia intuizione ancor più di quanto sperassi. Williams scende al settimo posto, Sharapova al 18esimo e Azarenka al 23esimo. Grazie al moltiplicatore flessibile, Williams potrà tornare nuovamente in alto in classifica con qualche immediata vittoria al suo rientro.

Come Djokovic, anche Williams ha una valutazione così alta per aver avuto, prima della pausa, una valutazione Elo stratosferica. Dal suo canto Sharapova è più in alto per Elo rispetto alla classifica ufficiale. Pur essendo stata penalizzata per la qualifica di un anno per uso di sostanze illecite, l’algoritmo comunque dà rilevanza ai suoi precedenti successi, anche se sempre meno con il passare delle settimane.

Elo rimane sempre un’approssimazione e, considerando l’insieme di motivazioni che possono “mandare in tribuna” un giocatore e l’ampio spettro di strategie per rientrare nel circuito, qualsiasi sistema previsionale/di valutazione sarà messo sotto maggiore pressione con giocatori in quel tipo di situazione.

Detto questo, sono comunque migliorie che restituiscono valutazioni Elo più accurate nella rappresentazione dello stato di forma dei giocatori che sono stati lontani dal tennis professionistico, e che consentono previsioni più precise su partite e tornei che coinvolgono i giocatori in questione.

Dietro le quinte

Proseguite nella lettura se siete interessati ai dettagli tecnici.

Prima di apportare queste modifiche, l’indice Brier per le previsioni basate sul sistema Elo di tutte le partite maschili dal 1972 era di circa 0.20. Per tutte le partite con almeno un giocatore con una valutazione Elo non inferiore a 1900, era di 0.17 (non solo giocatori con Elo di almeno 1900 sono più forti, ma la loro valutazione tende a essere calcolata su più dati, che spiega in parte il motivo per cui si hanno previsioni più accurate. Minore l’indice Brier, maggiore l’accuratezza).

Prima delle modifiche, l’indice Brier per una popolazione di circa 500 “prime partite” di giocatori al rientro era di 0.192. Dopo aver applicato la penalizzazione, è sceso, e quindi migliorato, a 0.173.

Per le partite dalla seconda alla ventesima dopo il rientro, l’indice Brier per l’algoritmo originale era di 0.195. Dopo la penalizzazione, era di 0.191 e, dopo aver reso flessibile il moltiplicatore, è sceso ancora a 0.190 (incrementi del moltiplicatore successivo al rientro hanno avuto risultati negativi, spingendo l’indice Brier di nuovo intorno a 0.195 con il moltiplicatore della seconda partita a 2).

Comprendo essere un cambiamento marginale, ed è molto probabile che in futuro non possa reggere. Ma nell’analisi di diversi giocatori importanti nel corso del loro rientro, è la supposizione che ha generato i risultati che intuitivamente sembravano più precisi. E visto che la mia intuizione ha reso come il valore migliore dell’indice Brier (pur con differenze minuscole), mi è sembrato l’opzione migliore.

Assenze multiple

Per concludere, un’indicazione sui giocatori con più di un’assenza. Se un giocatore si ferma per sei mesi, torna e gioca alcune partite e interrompe di nuovo per altri due mesi, non sembra corretto applicare due volte la penalizzazione. Non ci sono molte occorrenze utilizzabili per un’analisi, ma il campione limitato a disposizione lo conferma.

La mia soluzione: se la seconda assenza arriva entro due anni dal precedente ritorno, si somma la durata delle due interruzioni (otto mesi nell’esempio), si trova la penalizzazione corrispondente e si applica la differenza tra quella penalizzazione e la precedente. Di solito si ottengono penalizzazioni tra i 10 e i 50 punti per secondi periodi di assenza. ◼︎

Handling Injuries and Absences With Tennis Elo

DELLO STESSO AUTORE