Un confronto tra le prestazioni di alcuni modelli predittivi

di Peter Wetz // TennisAbstract

Pubblicato il 15 gennaio 2017 – Traduzione di Edoardo Salvati

Con la recente diffusa curiosità intorno alle valutazioni Elo nel tennis, su TennisAbstract come su altri siti quali FiveThirtyEight o StatsOnTheT, è emersa anche la facoltà di pronosticare i risultati delle partite.

Non è quindi una forzatura volersi interrogare sulle prestazioni dei diversi modelli predittivi disponibili e, ancora più interessante, verificare come si comportino rispetto ad altri “modelli”, ad esempio la classifica ufficiale ATP o il mercato delle scommesse, interamente considerato.

Pronostici di cinque modelli

Ai fini di questa – per ammissione limitata – analisi, sono stati raccolti i pronostici (convertiti in percentuale dalle quote con cui sono stati espressi) di cinque modelli: FiveThirtyEight, TennisAbstract, Riles, la classifica ufficiale ATP e il mercato delle scommesse Pinnacle per gli US Open 2016.

I primi tre modelli si basano sulle valutazioni Elo, mentre per dedurre i pronostici dalla classifica ATP è stata usata una formula specifica [1]. Per Pinnacle, uno dei maggiori allibratori (bookmaker) nel tennis, la probabilità in percentuale è calcolata rispetto alle quote fornite (a cui è sottratto l’overround, cioè il margine del bookmaker) [2].

Successivamente, si confrontano per ciascun modello pronostici e risultati effettivi, chiedendosi se un giocatore considerato favorito – quindi con P(a) > 0.5 – abbia effettivamente vinto la partita.

Applicando questa procedura a ciascuna partita e a ciascun modello (escludendo ritiri pre-partita o durante la partita) si ottengono i seguenti risultati.

Modello		  Pronostico corretto (%)
Pinnacle	  76.92%
FiveThirtyEight   75.21%
TennisAbstract	  74.36%
Classifica ATP	  72.65%
Riles		  70.09%

Si osservano dalla tabella le percentuali con cui i pronostici si sono rivelati corretti. Il modello delle scommesse (basato sulle quote di Pinnacle) è al primo posto seguito dai modelli Elo di FiveThirtyEight e TennisAbstract.

È interessante notare come il modello Elo di Riles sia superato dai pronostici dedotti dalla classifica ufficiale ATP. Vista la possibilità di utilizzare molti parametri per ritoccare un modello Elo, Riles ha ancora ampi margini di miglioramento.

Va detto però che prendere in considerazione solamente le percentuali con cui un pronostico si è rivelato vero non è sufficientemente rappresentativo. Esistono in realtà indici più granulari per valutare la prestazione di un modello predittivo.

Indici più granulari

La Calibrazione (Calibration) ad esempio cattura la capacità di un modello di fornire una probabilità predittiva vicina alla probabilità reale. In altre parole, in un modello ideale il 70% dei pronostici dovrebbe essere vero esattamente nel 70% dei casi.

La Risoluzione (Resolution) misura lo scarto tra i pronostici e la media complessiva. La logica sottostante è che usare valori medi attesi consente di fare pronostici ragionevolmente ben calibrati, ma non è altrettanto utile quanto un metodo che raggiunge lo stesso livello di calibrazione tenendo conto delle circostanze del momento. In altre parole, più sono estreme le previsioni (ma comunque corrette), migliore è il modello.

Nella tabella, insiemi di pronostici sono raggruppati per determinati intervalli di probabilità forniti dal modello ed è mostrata, per singolo intervallo, la percentuale reale dei pronostici. Questo permette anche di calcolare valori di Calibrazione e Risoluzione per ogni modello.

Come si può osservare, non sempre i pronostici sono perfettamente allineati a quanto previsto dagli intervalli di probabilità. Alcune deviazioni – come ad esempio il fatto che per l’intervallo 90-100% del modello Riles la percentuale reale dei pronostici è stata solo del 67% – possono essere spiegate dalle ridotte dimensioni del campione a disposizione (solo 3 occorrenze in quel caso).

Ci sono però due casi interessanti, evidenziati in grassetto, in cui il campione è più rifinito e che hanno catturato la mia attenzione.

Sia il modello Riles che Pinnacle sembrano fortemente sottostimare (in modo statisticamente significativo) le percentuali di pronostico nell’intervallo 60-69%. In altre parole, la probabilità fornita da entrambi i modelli avrebbe dovuto essere più alta perché, nella realtà, la probabilità con cui si è verificata l’occorrenza è stata, rispettivamente, dell’86% e del 91% [3].

Calibrazione, Risoluzione e Indice di Brier

Per i patiti delle scommesse, il fatto che Pinnacle sottostimi i favoriti è un aspetto interessante, perché, come dicono quelli che puntano soldi, potrebbe lasciare spazio di guadagno. Per Riles invece, può essere un buon punto di partenza per migliorare gli algoritmi del modello.

Le tre colonne più a destra mostrano la Calibrazione (minore il valore, migliore la capacità predittiva), la Risoluzione (maggiore il valore, migliore la capacità predittiva) e l’indice Brier (minore il valore, migliore la capacità predittiva).

L’indice Brier unisce Calibrazione e Risoluzione (e l’incertezza degli esiti) in un singolo valore di misurazione dell’accuratezza dei pronostici. Anche i modelli di FiveThirtyEight e Pinnacle (per il campione considerato) ottengono buone prestazioni. Più indietro troviamo i modelli di TennisAbstract e della classifica ufficiale ATP, rispettivamente in terza e quarta posizione. Il modello Riles è il peggiore sia per Calibrazione che Risoluzione, per questo si trova al quinto posto.

Da ultimo, vorrei includere una diffusa rappresentazione grafica utilizzata per mostrare visivamente l’andamento di un insieme di pronostici.

Il diagramma di affidabilità confronta la frequenza effettiva di validità dei pronostici con la probabilità associata al pronostico (in modo simile a quanto fatto nella tabella precedente).

IMMAGINE 1 – Diagramma di affidabilità

Più la linea colorata si trova vicino alla linea nera, più i pronostici del relativo modello sono affidabili. Se la linea di un modello è sopra alla linea nera, i pronostici di quel modello tendono a sottostimare, tendendo a sovrastimare nel caso opposto.

Considerando di aver preso in esame un solo modello e avendo dovuto quindi lavorare con un campione ridotto (117 pronostici), ci si aspettano ampie ondulazioni delle curve.

Si può comunque notare che il modello basato sulla classifica ufficiale ATP riesce con molta efficacia a evitare di sovrastimare i pronostici, pur essendo noto per una minore accuratezza predittiva rispetto alle valutazioni Elo. 

Conclusioni

In conclusione, l’analisi mostra la possibilità di mettere a confronto tra loro modelli predittivi nel tennis con un metodo scientifico. Spero inoltre di aver evidenziato alcune delle aree in cui un modello funziona efficacemente e in cui invece può essere migliorato.

Naturalmente, si potrebbe rendere l’analisi più approfondita confrontando, ad esempio, le prestazioni di ciascun modello rispetto a diversi tipi di giocatori (basandosi sulla classifica), superfici, etc. Ma è oggetto di un eventuale futuro articolo.

Note

[1] P(a) = ae / (ae + be) con a i punti classifica del giocatore A, b i punti classifica del giocatore B ed e la costante, a cui viene assegnato, per i tabelloni di singolare del circuito maschile, il valore di 0.85.

[2] Il mercato delle scommesse non è un modello in sé, vale a dire che l’obiettivo dei bookmaker è semplicemente quello di organizzare le quote in modo da ottenere un profitto. Questo significa che le quote riflettono, nella sostanza, l’intelligenza collettiva, rendendo il mercato delle scommesse molto affidabile.

[3] Un esempio di occorrenza in cui Pinnacle ha sottostimato rispetto ad altri modelli, tutti invece con stime più alte, è la partita di trentaduesimi di finale tra Ivo Karlovic e Jared Donaldson. La probabilità di vittoria per Karlovic espressa in percentuale era del 64%. Gli altri modelli (ad eccezione della sottostima anche da parte di Riles) davano una percentuale del 72% (classifica ufficiale ATP), del 75% (FiveThirtyEight) e dell’82% (TennisAbstract). Karlovic ha poi vinto in tre set. Un possibile fattore d’influenza in questo caso è stato il tipo di torneo, cioè gli US Open, nel quale gli americani, più fiduciosi sulle possibilità del giocatore di casa, hanno scommesso su Donaldson. Per bilanciare le scommesse, Pinnacle ha abbassato le quote su Donaldson rendendo di conseguenza più alte (e quindi una probabilità espressa in percentuale più bassa) quelle di Karlovic.

Measuring the Performance of Tennis Prediction Models