Un modello pitagorico per il tennis: edizione femminile

di Stephanie Kovalchik // OnTheT

Pubblicato il 3 ottobre 2015 – Traduzione di Edoardo Salvati

In un precedente articolo, basato sul mio intervento al New England Symposium on Statistics in Sports (NESSIS) del 2015 ad Harvard, ho parlato della possibile applicazione per il tennis della formula di Pitagora inizialmente introdotta nel baseball, mostrando che le palle break convertite hanno una capacità predittiva delle vittorie di un giocatore straordinariamente simile a quanto i punti segnati (in relazione ai punti concessi) la abbiano per le vittorie di squadra nel baseball. Le analisi pitagoriche si riferivano solo al circuito professionistico maschile. Grazie ai dati messi a disposizione da Jeff Sackmann di Tennis Abstract, intendo verificare l’esistenza di una formula di Pitagora anche per il tennis femminile. 

Su un campione di più di 12.000 partite tra il 2010 e il 2015, l’era della struttura “Premier” dei tornei introdotta dalla WTA nel 2009, ho calcolato la “forza pitagorica” di 14 indicatori di prestazione, tramite la seguente formula:

Win% = Xα / (Xα+Yα) x 100.

dove Win% si riferisce alla percentuale di vittorie stagionali sulle partite giocate, X è uno dei 14 indicatori della bravura di una giocatrice – calcolato come sommatoria di quella particolare abilità sull’insieme di partite giocate in un anno – e Y indica il totale corrispondente per gli avversari che la giocatrice ha affrontato.   

Facciamo un esempio. Prendiamo il modello pitagorico per i punti vinti con la prima di servizio da Li Na nel 2010, anno per il quale ci sono 45 partite nel database e 1105 punti vinti contro i 949 punti vinti dalle sue avversarie. La formula per le vittorie attese pitagoriche per Na nel 2010 rispetto ai punti vinti con la prima di servizio ha X = 1105 e Y = 949. Per completare il calcolo serve l’esponente α, stimato da un adattamento tramite minimi quadrati. 

IMMAGINE 1 – Coefficienti α per modelli pitagorici di 14 indicatori di prestazione nel tennis femminile per il periodo 2010-2015

women-pit_1

L’immagine 1 mostra gli esponenti per ogni indicatore di prestazione basati sull’esito vincente delle partite tra il 2010 e il 2015 nel circuito WTA. I punti vinti con la prima di servizio avevano una stima di α = 4.75. Tornando all’esempio, la stima per le vittorie della stagione 2010 per Na in funzione dei punti vinti con la prima di servizio è:

Win% = 11054.75 / (11054.75 + 9494.75) x 100 = 67%

La percentuale effettiva ottenuta da Na nelle 45 partite del campione è stata del 64%.

Nel modello BP2 per il circuito maschile, l’esponente con il migliore adattamento era 1.83, molto vicino al coefficiente pitagorico 2. Per la WTA, il coefficiente di adattamento migliore per il modello delle palle break convertite è 2.28, sempre vicino a una relazione pitagorica, ma in verso opposto rispetto agli uomini. Questo suggerisce che, a parità di miglioramento della percentuale di conversione di palle break sulle avversarie, si assiste a un incremento maggiore nelle vittorie rispetto a quanto accade per gli uomini, facendo ipotizzare l’esistenza di una relazione in qualche modo più diretta di quello del tennis maschile tra prestazione relativa sulle palle break ed esito vincente di una partita.

Quanto accuratamente questi modelli predicono la percentuale di vittorie?

L’immagine 2 evidenzia che il modello basato sulle palle break convertite è quello con la capacità predittiva più forte per la percentuale di vittorie attese, spiegando l’83% della variazione nel numero di vittorie con un errore di ±4 partite su un campione di 50 partite stagionali. E’ un risultato simile a quanto visto per il circuito maschile. Curiosamente, a differenza degli uomini, il modello con la seconda migliore capacità predittiva è quello basato sul totale dei punti vinti con il servizio (invece che le opportunità di break generate, nel caso degli uomini), suggerendo che un maggiore dominio relativo al servizio è un fattore più preponderante sull’esito vincente di una partita rispetto al circuito maschile. Questo è coerente con il fatto che nel nel circuito femminile si verificano più break. 

IMMAGINE 2 – Coefficiente di adattamento per modelli pitagorici di 14 indicatori di prestazione nella WTA per il periodo 2010-2015

women-pit_2

Nel baseball, uno dei più remunerativi utilizzi delle attese pitagoriche è relativo alla stima del numero di vittorie, in quanto restituisce un valore più preciso delle predizioni basate sul record vittorie-sconfitte di una squadra. Ho mostrato che questo è vero anche per il modello BP2 applicato al tennis maschile. L’immagine 3 confronta le previsioni di vittorie WTA a metà stagione del modello pitagorico BP2 contro tre modelli alternativi, il primo dato da un modello di regressione con il più predittivo dei 14 indicatori di prestazione, il secondo dato dallo stesso modello con aggiunta della classifica relativa giocatrice-avversaria e il terzo dato dal record vittorie-sconfitte.    

Nel grafico di destra vittorie-sconfitte si osserva un’ampia disseminazione di punti che rappresentano previsioni di vittorie e sconfitte, a indicazione del fatto che le vittorie di una giocatrice a metà stagione potrebbero variare ampiamente rispetto al numero di vittorie di fine anno. In effetti, l’errore per il modello vittorie-sconfitte in una stagione di 50 partite è stato superiore di più di una partita rispetto all’errore basato su BP2, una frequenza di errore praticamente identica all’efficacia dei modelli multivariati.     

IMMAGINE 3 – Proiezioni a metà stagione di BP2 per la WTA contro tre modelli alternativi

women-pit_3

In conclusione, nonostante numerose differenze nella modalità e nello stile di gioco tra il tennis maschile e quello femminile, la relazione pitagorica tra palle break convertite e percentuale di vittorie resta valida. Ci sono anche prove nei risultati ottenuti che indicano che il modello BP2 restituisce risultati migliori del record vittorie-sconfitte in misura superiore nel tennis femminile rispetto a quello maschile. Per entrambi i circuiti in ogni caso, BP2 promette di essere uno strumento semplice e funzionale per una valutazione accurata della bravura di una giocatrice o di un giocatore.

Are Women as Pythagorean as Men in Tennis?

Trasformare il dominio in vittorie: un modello pitagorico per il tennis

di Stephanie Kovalchik // OnTheT

Pubblicato il 26 settembre 2015 – Traduzione di Edoardo Salvati

Più volte mi sono lamentata dell’assenza di analisi statistiche nel tennis. Quale evidenza possiedo a suffragio di questa posizione? Per fare chiarezza, un punto di partenza è quello di confrontare il tennis con gli sport che sono all’avanguardia della rivoluzione generata dall’analisi statistica. In questa sede, approfondisco uno degli aspetti in cui il tennis è ritardo rispetto agli altri sport, cioè la mancanza di indicatori statistici per misurare il livello di vittoria o vittorie attesa (win expectation). 

La capacità di stimare il numero di vittorie è spesso considerata il “sacro Graal” delle statistiche sportive. Questo è stato uno dei primi problemi affrontati da Bill James, il padre della sabermetrica e catalizzatore del cambiamento epocale nel baseball ben descritto in Moneyball di Michael Lewis (e poi nell’omonimo film con Brad Pitt). Il contributo maggiore di James, all’inizio della sua carriera, fu quello di individuare una semplice formula per calcolare le vittorie attese per stagione di una squadra, basandosi su una sola misura della forza della squadra: i punti segnati. James introdusse la sua formula nella quinta edizione di Baseball Abstract del 1981 con questa espressione matematica:

Win% = RS2 / (RS2+RA2)

dove RS indica il numero dei punti complessivamente segnati da una squadra durante la stagione (runs scored), RA indica il numero di punti concessi (runs allowed) complessivamente durante la stagione. Per via della sua somiglianza al teorema di Pitagora, la formula è conosciuta come vittorie attese pitagoriche (Pythagorean expectation for wins) o formula di Pitagora. 

Dalla sua introduzione, diverse versioni della formula di Pitagora sono comparse in molti sport principali. La più famosa è probabilmente quella di Ken Pomeroy, utilizzata per valutare le squadre di basket NCAA e diventata la fonte di riferimento per pronosticare il tabellone del March Madness.

Che io sappia, non esiste un’applicazione della formula di Pitagora per gli sport individuali. Nel mio intervento al New England Symposium on Statistics in Sports (NESSIS) del 2015 ad Harvard, ho illustrato il possibile utilizzo della formula di Pitagora nel tennis. La domanda principale a cui ho cercato di dare risposta è questa: esiste una semplice misura delle prestazione che approssimi la relazione pitagorica e sia nel contempo un’accurata misura delle vittorie di un giocatore in una stagione? Sorprendentemente, la risposta è !

Quando ho inserito nella seguente enunciazione generale del modello pitagorico

Win% = Xα / (Xα+Yα)

14 tra gli indicatori di prestazione più diffusi nel tennis, utilizzando dati relativi a più di 50.000 partite ATP nel periodo 2004-2014, molti hanno restituito un coefficiente simile al coefficiente pitagorico 2. Curiosamente, fanno tutti riferimento alle prestazioni in risposta: palle break convertite, opportunità break ottenute, punti vinti in risposta alla prima e alla seconda di servizio. (Alcuni degli indicatori, come i punti totali vinti in risposta, non sono stati considerati perché sono altamente correlati con uno o più degli altri indicatori calcolati). 

IMMAGINE 1 – Coefficienti α per modelli pitagorici di 14 indicatori di prestazione nel tennis

converting-clutch_1

Più significativa del coefficiente di adattamento è la bontà del modello in termini di risultati. L’immagine 2 mostra l’adattamento di ogni possibile modello pitagorico basato su un coefficiente di determinazione (r-quadrato) corretto (adjusted) e su un errore da validazione incrociata di tipo esaustivo (leave-one-out cross validation o LOOCV). Un r-quadrato del 100% rappresenta il migliore adattamento possibile in quanto attesta che il modello spiega il 100% della variazione nel numero di vittorie. L’errore da validazione incrociata riassume la deviazione predittiva del modello rispetto all’osservazione del campione in una modalità che risulta essere più robusta delle parzialità (bias) del campione osservato (training-data). Entrambi gli indici mostrano che il modello pitagorico basato sulle palle break convertite è senza alcun dubbio quello con le migliori prestazioni tra i modelli selezionati, in grado di spiegare, con l’errore più basso, l’85% della variazione nel numero di vittorie stagionali di un giocatore.     

IMMAGINE 2 – Coefficiente di adattamento per modelli pitagorici di 14 indicatori di prestazione nel tennis

converting-clutch_2

E’ possibile che il modello pitagorico basato sulle palle break, che chiamerò BP2, ottenga risultati impressionanti come quelli dell’immagine 2 perché viene messo a confronto con modelli che sono, nel loro insieme, meno brillanti. Per un test più rappresentativo della validità di BP2 ho confrontato, per le stagioni dal 2004 al 2014, le previsioni di fine stagione del modello basate sulla forza dello stesso a metà stagione con le corrispondenti previsioni percentuali di vittoria (Win%) di tre alternative: il record di vittorie-sconfitte, un modello multivariato che comprende 11 dei 14 indicatori (tra cui le palle break convertite) e lo stesso modello multivariato con l’aggiunta della classifica relativa del giocatore. 

E’ interessante notare che il record di vittorie-sconfitte ottiene il risultato peggiore, come indicato da un maggior numero di punti disseminati intorno alla retta di regressione, vale a dire più deviazioni dalla relazione lineare. Le previsioni del modello multivariato senza classifica sono le migliori, probabilmente perché parte dell’arbitrarietà associata all’assegnazione dei punti validi per la classifica e alla scelta dei tornei effettuata da ciascun giocatore aggiunge rumore alla versione del modello con classifica del giocatore. Ma BP2 è facilmente paragonabile al modello multivariato, in quanto entrambi restituiscono un errore di ±2 partite su un campione di 50 partite stagionali.      

IMMAGINE 3 – Previsioni a metà stagione di BP2 contro tre modelli alternativi

converting-clutch_3

Siamo quindi indotti alla forse ovvia conclusione che la conversione di palle break è importante per vincere una partita di tennis. Ma non è questo l’elemento innovativo. La novità è invece che la formula di BP2 permette l’esatta quantificazione dell’importanza della conversione di palle break, rivelando una somiglianza quasi enigmatica con quella originariamente proposta da James per i punti segnati e le vittorie nel baseball.

Alcune implicazioni: i grafici che evidenziano il dominio di un giocatore

La scoperta di BP2 ha un numero elevato di potenziali implicazioni utili per previsioni e valutazioni sulle prestazioni di un giocatore, troppe in realtà per darne seguito esaustivo in questo articolo. Ma vorrei segnalare una filone di ricerca che, attraverso BP2, potrebbe migliorare la nostra comprensione degli esiti delle partite di tennis.  

C’è stato un acceso dibattito sul fatto che le poche palle break convertite da Roger Federer nella finale degli US Open 2015 abbiano contribuito alla sconfitta. Con uno sguardo ai precedenti 9 mesi, l’immagine 4 mostra la sequenza temporale delle vittorie attese di Federer nel 2015 e come vari a seguito di ogni vittoria e sconfitta.

IMMAGINE 4 – Vittorie attese di Roger Federer per il 2015 basate su BP2

converting-clutch_4

Il grafico fornisce numerosi spunti di analisi. Escludendo i tornei sulla terra, le maggiori sconfitte di Federer sono state precedute in genere da un aumento della forza di BP2 e una successiva diminuzione. Ogni punto rappresenta le attese di vittoria prima di una partita, quindi il successivo calo rivela che la conversione di palle break è stata verosimilmente un fattore determinante. L’alternanza aumento-diminuzione ci dice anche che Federer si è presentato in finale di diversi tornei (e di due Slam) con un livello di vittoria attesa in crescendo, per poi giocare al di sotto delle attese. Questo è stato particolarmente doloroso per i suoi tifosi nella finale di Wimbledon 2015. 

Chiaramente, una sconfitta dipende in definitiva dal livello di vittoria attesa di un giocatore rispetto a quello del suo avversario. Però, il grafico della forza di BP2 specifica per Federer corrobora l’impressione generale, e anche quella di Federer, che la capacità di fare la differenza nei momenti chiave è stata la discriminante delle sue sconfitte negli Slam. Ma mostra anche che Federer, con o senza Slam, ha avuto comunque una stagione spettacolare.

Converting Clutch into Wins — A Pythagorean Model for Tennis