Guida alle simulazioni predittive

di Jeff Sackmann // TennisAbstract

Pubblicato il 6 agosto 2012 – Traduzione di Edoardo Salvati

Uno degli strumenti che più utilizzo è quello dei pronostici per i singoli tornei, basati sulle simulazioni del tabellone. Ne spiego qui il funzionamento.

Simulazione Monte Carlo

Per generare previsioni per un intero torneo, serve prima trovare un modo per predire il risultato delle singole partite. Per fare questo, uso il mio sistema di classifica JRank, che ho già introdotto in precedenza. Con una stima numerica della bravura di un giocatore, non molto diversa dai punti per la classifica dell’ATP, è possibile calcolare la probabilità che ciascun giocatore vinca la partita.

Una volta ottenute le probabilità per le partite, si tratta di “giocare” gli scontri del tabellone migliaia e migliaia di volte, operazione comodamente simulata dal computer.

Il codice che uso (di cui una versione è a disposizione di tutti) si basa sulla generazione di un numero casuale (random-number generator o RNG) per stabilire il vincitore di ogni partita. Ad esempio, come testa di serie numero uno del Canada Masters 2012 in corso questa settimana, Novak Djokovic ha un bye al primo turno, e nel turno successivo affronterà il vincitore tra Bernard Tomic e Michael Berrer. JRank stima che Tomic abbia il 64% di probabilità di battere Berrer. Per “giocare” quella partita in una simulazione di torneo, l’RNG fornisce un numero tra 0 e 1. Se il risultato è inferiore a 0.64, Tomic è il vincitore, altrimenti vince Berrer. 

Il vincitore avanza nel tabellone per “giocare” contro Djokovic. Il codice determina la probabilità di Djokovic di battere chiunque avanzi tra i due giocatori del turno precedente, e genera poi un numero casuale per il vincitore di quell’incontro. Ripetendo il procedimento per 47 volte, una per ogni partita, si ottiene la simulazione di tutto il torneo.   

Ogni simulazione quindi restituisce un insieme di risultati. Magari Tomic raggiunge il secondo turno, perde da Djokovic, il quale perde poi nei quarti di finale da Juan Martin Del Potro, che prosegue fino a vincere il torneo. Questa è una possibilità – ed è più probabile di altre – ma non è l’unica.

Per questo è necessario fare migliaia (o anche milioni) di simulazioni. Su un numero così grande, Del Potro qualche volta vince, ma più spesso Djokovic vince il loro scontro nei quarti. Tomic di solito supera il secondo turno, ma qualche volta è Berrer a vincere. Tutti questi “di solito” e “qualche volta” sono trasformati in percentuali in funzione di quanto spesso si verificano.

Correzioni sulle probabilità

Per ogni accoppiamento in una partita, non ci si attende sempre lo stesso risultato. Pablo Andujar è quasi sempre lo sfavorito sul cemento, ma è probabile che batta sulla terra quasi tutti i giocatori di media classifica. I giocatori giocano (leggermente) meglio nei tornei di casa. I qualificati fanno peggio dei giocatori che non si sono dovuti qualificare.

Per questo, se dovessimo far giocare il tabellone del torneo di Washington 2012 sui campi in terra di Vina Del Mar, i numeri cambierebbero sostanzialmente. I giocatori americani e gli specialisti del cemento vedrebbero le loro probabilità diminuire, mentre i giocatori cileni e i terraioli vedrebbero aumentare le loro, proprio come suggerisce il buon senso tennistico.

Variazioni nella simulazione: indipendenza dal tabellone

Alcuni dei risultati più interessanti arrivano scombussolando il tabellone. Ogni volta che i giocatori vengono inseriti in un sistema incrociato di scontri diretti, ci sono naturalmente vincitori e perdenti. Chiunque sia sorteggiato per affrontare una testa di serie al primo turno (o al secondo, come Berrer e Tomic possono testimoniare) è probabilmente sfortunato, mentre in un altro punto del tabellone un paio di qualificati sono più fortunati perché si scontrano tra di loro per il passaggio al secondo turno.   

Questo è uno dei motivi per cui occasionalmente faccio simulazioni indipendenti dal tabellone (draw-independent simulations o DIS). Se si vuole conoscere l’impatto positivo o negativo del tabellone su un giocatore, bisogna trovare le sue probabilità di successo prima del sorteggio (le DIS tornano utili anche nelle circostanze in cui si sa chi prende parte al torneo ma il sorteggio non è ancora avvenuto).

Per una simulazione indipendente dal tabellone, è necessario fare un passo indietro. Invece di considerare fissato il tabellone, è il campo di partecipazione a essere fissato, comprese le teste di serie se sono disponibili. Si procede poi utilizzando la stessa logica degli organizzatori del torneo nel costruire il tabellone: la testa di serie numero 1 va nella parte alta, la 2 nella parte bassa, la 3 e la 4 sono sorteggiate nei rimanenti quarti di finale, dalla 5 alla 8 il sorteggio è per i rimanenti ottavi e così via.    

Variazioni nella simulazione: indipendenza dalle teste di serie

È possibile andare oltre e misurare gli effetti benefici del sistema di teste di serie. La maggior parte delle volte si dà per assodato il sistema delle teste di serie, perché vogliamo che i primi due del mondo si affrontino solo in finale, e così via. Questo però ha delle conseguenze importanti sulle probabilità di un giocatore di vincere il torneo. Nel Canada Masters a Toronto di questa settimana, le prime 16 teste di serie (insieme a, in tutta probabilità, uno o due lucky loser molto fortunati) hanno un accesso diretto al secondo turno. E questo aiuta!

Anche in assenza di bye, il sistema di teste di serie garantisce partite relativamente facili per i primi turni. Per un giocatore come Djokovic questo aspetto può fare poca differenza, avanzerà anche se deve giocare con una testa di serie come Florian Mayer o un giocatore non testa di serie come Jeremy Chardy. Ma nel caso di Mayer, ci sono evidenti benefici: sta giocando leggermente meglio di un giocatore fuori dalle teste di serie, ma ha la garanzia di evitare i più forti fino al terzo turno.

Ecco perché si parla molto del vantaggio di rientrare tra i primi 32 per il sorteggio nei tornei dello Slam. Quando sono in gioco punti e soldi importanti, è meglio dover affrontare partite meno impegnative (almeno sulla carta) in qualsiasi turno. Kevin Anderson e Sam Querrey non sono separati in classifica da molti punti, ma se il sorteggio per gli US Open 2012 fosse fatto oggi, Anderson sarebbe testa di serie, Querrey no. Immaginate chi tra i due è più probabile ritrovare al terzo turno!

Per la simulazione indipendente dalle teste di serie, non si genera un tabellone logico, come nelle DIS, si genera invece un tabellone casuale in cui tutti i giocatori possono affrontarsi al primo turno.

Misurare le variazioni

Se mettiamo a confronto previsioni basate sull’effettivo tabellone con previsioni indipendenti dal tabellone o dalle teste di serie, vogliamo quantificare la differenza. Per fare questo, ho utilizzato due statistiche: punti classifica attesi (Expected Ranking Points o ERP) e premi partita attesi (Expected Prize Money o EPM).

Entrambi sintetizzano previsioni per un intero torneo in un singolo numero per ogni giocatore. Se Djokovic ha una probabilità del 30% di vincere a Toronto questa settimana, con quella probabilità prenderà 1000 punti (quelli per la vittoria di un Masters 1000). Se ci fossero solo quei punti, l’ERP di Djokovic sarebbe il 30% di 1000, vale a dire 300.

Naturalmente, se Djokovic perde, guadagna comunque dei punti. Per ottenere la sua ERP complessiva, bisogna considerare la sua probabilità di perdere in finale e il numero di punti assegnati al finalista, la sua probabilità di perdere in semifinale e il numero di punti assegnati al semifinalista e così via. Per calcolare la EPM, si utilizza lo stesso procedimento ma, ovviamente, con i premi partita.

Queste due statistiche permettono di valutare quanto il tabellone favorisce o sfavorisce un giocatore. Ad esempio, prima del Roland Garros 2012, ho calcolato che l’EPM di Richard Gasquet è aumentato all’incirca del 25% grazie a un tabellone davvero molto fortunato. 

Questi numeri aiutano inoltre ad analizzare le scelte di un giocatore in termini di calendario. Il forte campo di partecipazione alle Olimpiadi di Londra e il ben più debole livello al torneo di Washington 2012 hanno creato una situazione anomala: i giocatori di classifica inferiore hanno potuto raccogliere più punti dei giocatori più forti. Anche prima dell’inizio del torneo, si sarebbe potuto usare l’approccio ERP/EPM per vedere se, ad esempio, Mardy Fish si sarebbe aspettato di prendere 177 punti nel torneo di Washington mentre David Ferrer, con una classifica nettamente superiore, si sarebbe aspettato di prendere solo 159 punti a Londra. 

The Tournament Simulation Reference

Guida ufficiale al mio sistema di classifica JRank

di Jeff Sackmann // TennisAbstract

Pubblicato il 28 maggio 2012 – Traduzione di Edoardo Salvati

Nei miei articoli faccio spesso riferimento al “mio sistema di classifica”, che utilizzo per fare previsioni sui risultati dei tornei. Il sistema è ufficiosamente denominato “JRank”, ma avrebbe bisogno di un un nuovo nome. La classifica che genera è superiore a quella ATP (e presumibilmente a quella WTA) nel senso che ha una migliore facoltà predittiva dei risultati delle partite del circuito o dei Challenger.

Se l’algoritmo su cui si basa è complicato, non lo sono le idee che lo ispirano. La differenza fondamentale tra JRank e la classifica ATP è il modo in cui vengono valutate le singole partite.

Il sistema ATP assegna punti in funzione dei tornei e del turno superato (una vittoria al primo turno di Wimbledon vale più di una vittoria al primo turno di Halle; una vittoria al terzo turno del Roland Garros vale più di una vittoria al secondo turno). JRank invece assegna punti in funzione dell’avversario e di quando una partita è stata giocata. Una vittoria contro Rafael Nadal quindi vale molto più di una vittoria su Igor Kunitsyn, anche se entrambe si verificano allo stesso turno dello stesso torneo. E una vittoria su Kunitsyn vale di più se è avvenuta la settimana scorsa piuttosto che 8 mesi fa. Una vittoria recente infatti fornisce più informazioni sull’attuale stato di forma di un giocatore di quanto non faccia una vittoria ottenuta tempo fa. 

Il vantaggio di attribuire un peso maggiore alle partite più recenti consiste nel fatto che è possibile prendere in considerazione partite più vecchie di un anno senza esporsi agli svantaggi del sistema su due anni proposto da Nadal che premia eccessivamente i veterani del circuito. JRank utilizza tutte le partite degli ultimi due anni, ma una partita di un anno fa vale solo la metà di una della settimana scorsa, mentre una partita di due anni fa vale solo un quarto. In questo modo si beneficia della disponibilità di una maggiore quantità di dati senza favorire indebitamente i veterani. Un altro elemento positivo arriva dal fatto che JRank è più “costante” di settimana in settimana, non ci sono cioè effetti strani derivanti da un torneo che esce dal punteggio dopo un anno – come se i risultati di un giocatore risalenti a 51 settimane fa sono il 100% più rilevanti dei risultati di 54 settimane fa!      

JRank ha ulteriore valore perché crea classifiche differenziate per tipologia di superficie. Tutti sanno che la superficie conta, ma la classifica ATP ignora completamente questo aspetto. Se si vuole conoscere il favorito al Roland Garros, sembra quasi ridicolo attribuire importanza analoga ai risultati del Masters di Parigi Bercy e a quelli del Monte Carlo Masters. JRank assegna un peso maggiore alle vittorie di un giocatore sulla terra per la sua classifica su quella superficie, e così per le altre. Va da sé che battere uno specialista della terra battuta vale di più sulla terra che sul cemento.

Elaborare previsioni

Con questo tipo di classifiche a disposizione, sono veloci i passaggi che consentono di elaborare previsioni per qualsiasi torneo. In ogni partita, il pronostico si basa quasi esclusivamente sulla classifica dei due giocatori (la formula è una versione leggermente più complicata di A / A+B, dove A è rappresentato dai punti della classifica di un giocatore e B da quelli dell’altro. Funziona, più o meno, anche con i punti ATP).

Ci sono, però, alcuni aggiustamenti. Primo, le mie ricerche hanno evidenziato come i qualificati, i lucky loser e le wild card ottengano risultati sotto le attese. Il motivo non è chiaro anche se sospetto che per i qualificati sia dovuto a un fattore stanchezza: i loro avversarsi sono più freschi perché per qualificarsi servono due o tre partite.

Secondo, ho stabilito che esiste un piccolo fattore campo. Una volta tenuto conto della superficie, il fattore campo è minimo, ma comunque presente, visto che il giocatore “di casa” gioca circa il 2% meglio delle attese. Forse è un arbitraggio più favorevole, il cibo o il tifo locale, o una combinazione di questi elementi.

Un suggerimento che spesso mi arriva è quello di ricomprendere gli scontri diretti nelle previsioni di ciascuna partita. È un’idea che ho sperimentato, ma non sembra fare troppa differenza, almeno non per un’ampia casistica incrociata di scontri diretti (forse, se una coppia di giocatori ha 10 o più scontri diretti, emerge una particolare tendenza).

Nella maggior parte dei casi, se il sistema di classifica rappresenta una buona approssimazione dello stato di forma di un giocatore, quella degli scontri diretti è un’indicazione superflua.

Potrebbero esserci altre variabili degne di attenzione, tra cui l’importanza del torneo, la stanchezza di un giocatore o i suoi recenti infortuni, o l’esperienza maturata giocando in uno specifico evento. Al momento, sono parametri che non ho ancora testato.

The Official JRank Reference