I giocatori di vertice non sempre hanno la frequenza di ace più alta

di John McCool // sportsbrain

Pubblicato il 17 giugno 2018 – Traduzione di Edoardo Salvati

Quest’analisi prende spunto dall’articolo di David Robinson sulla stima empirica di Bayes, un metodo statistico utilizzato per stimare un grande numero di percentuali. Qui l’idea è di prevedere il numero di ace sulla base del numero di game al servizio giocati in una determinata partita.

Entrando nel dettaglio, si definisce la frequenza di ace di un giocatore come il numero di ace diviso per il numero di game al servizio in una partita. Per la stima della frequenza di ace, si può usare uno stimatore empirico di Bayes mediante una distribuzione Beta. Per chiarezza, la distribuzione Beta è una famiglia delle distribuzioni di probabilità continua definita da due parametri positivi alfa e beta nell’intervallo unitario [0,1].

Definizione dello stimatore e dei parametri

Il primo passo in una stima empirica di Bayes è la definizione dello stimatore Beta a priori rispetto ai dati delle partite a disposizione (dall’inizio della stagione 2016 fino al 28 maggio 2018). L’immagine 1 mostra la densità della frequenza di ace dei vincitori in partite terminate in tre set.

IMMAGINE 1 – Distribuzione della frequenza di ace dei vincitori in partite di tre set.

Serve anche selezionare gli “iper-parametri” alfa e beta per il modello Beta che, in questo caso, hanno un valore rispettivamente di 1.76 e 10.83. Si può poi aggiornare la distribuzione Beta con i dati delle singole partite, vale a dire la frequenza degli ace per ciascun giocatore.

Applichiamo ora i parametri alfa e beta per provare a stimare la frequenza di ace nel caso un giocatore avesse servito cinque ace in dodici game al servizio. La modifica ai parametri alfa e beta cambia il modo in cui il modello si adatta ai dati a disposizione. Noti i valori di alfa e beta e la distribuzione Beta possiamo ottenere una stima della frequenza di ace di un giocatore come segue:

5 + alfa / 12 + alfa + beta = (5+1.76/12+1.76+10.83) = 0.274

Vale a dire, la stima della frequenza di ace per questo giocatore sarebbe del 27.4%. Il grafico di immagine 2 suggerisce che il modello Beta creato ha stimato con accuratezza la frequenza di ace sulla base dei dati dalle partite.

IMMAGINE 2 – Stima della frequenza di ace (asse delle X) di ciascun giocatore rispetto alla frequenza effettiva (asse delle Y)

Più ace non portano per forza a una classifica di vertice

La tabella elenca le prime 20 stime di frequenza di ace e la relativa frequenza effettiva usando la distribuzione Beta a priori per la stima della frequenza di ace della singola partita.

Troviamo una combinazione di giocatori noti e meno noti. Non sorprende la presenza di John Isner (1.49 di frequenza ace effettiva) e Ivo Karlovic (0.74 di frequenza stimata) tra i più alti valori stimati dal modello, considerando la loro efficacia al servizio.

Questi nomi però dimostrano che un’alta frequenza di ace non necessariamente si traduce in una classifica di vertice. Rafael Nadal e Roger Federer non collezionano ace a profusione, ma si può dire che siano stati probabilmente i due giocatori di massimo vertice negli ultimi dieci anni.

Complessivamente, il modello Bayesiano tende a una leggera sottostima della frequenza effettiva di ace di ciascun giocatore, ma è un buon metodo di stima, a cui sarà utile rivolgersi nella previsione di altre statistiche di tennis in futuro.

Il codice per quest’analisi è disponibile qui.

Elite Tennis Players Don’t Always Have the Highest Ace Rates

Come la superficie incide sul rendimento dei giocatori

di John McCool // sportsbrain

Pubblicato il 17 aprile 2018 – Traduzione di Edoardo Salvati

I tornei della prima parte di stagione danno un’idea su quali siano i giocatori più meritevoli di considerazione per il proseguo del calendario e sulle dinamiche di gioco più intriganti.

I risultati dell’analisi

Ho analizzato alcune statistiche in riferimento a un campione di 3345 partite di fine stagione 2017 e inizio stagione 2018 del circuito maschile. Pur in presenza di risultati a sorpresa, la testa di serie più alta ha vinto il 78.9% delle partite considerate.

I dati suggeriscono che i giocatori più giovani hanno un leggero vantaggio competitivo sulla terra. I vincitori delle partite su questa superficie sono stati in media 0.13 anni più giovani dei loro avversari.

Al contrario, i vincitori sul cemento e sull’erba sono stati rispettivamente 0.31 e 1.27 anni più vecchi dei loro avversari. Un veloce test di analisi di varianza mostra una differenza significativa tra l’età media dei vincitori sull’erba, sulla terra e sul cemento.

La terra è la superficie con in media le partite a più bassa classifica dei due avversari (101.2), seguita dall’erba (100.2) e dal cemento (95.6).

Nel campione considerato, il vincitore ha servito il 58% degli ace rispetto al 42% dello sconfitto. Il vincitore ha anche vinto il 57.9% dei game del primo set, il 54.5% dei game del secondo set e il 56.3% dei game del terzo set (complessivamente, il 55.9% dei game).

IMMAGINE 1 – Istogramma della differenza di game tra il vincitore del primo set e lo sconfitto. Il grafico mostra che il giocatore che ha poi vinto la partita tende a vincere più game nel primo set del giocatore che poi perde la partita

È interessante notare che, mentre il vincitore ha vinto il primo set il 79.3% delle volte, ha vinto il secondo con una frequenza più bassa, del 67.1%. Questo può essere dovuto al fatto che il giocatore che ha perso il primo set deve recuperare nel punteggio o anche che il vincitore della partita subisce un passaggio a vuoto.  Comunque, a parità di condizioni, vincere il primo set aumenta in modo sostanziale la probabilità di vincere la partita. 

Statistiche legate alla superficie

Sulla terra è più difficile fare un ace: in media, 5.17 ace per il giocatore che ha poi vinto la partita, rispetto ai 7.20 sul cemento e ai 9.58 sull’erba.

Inoltre, è più probabile che il giocatore che ha poi vinto la partita commetta doppio fallo sull’erba (2.97 in media) rispetto alla terra (2.80) e al cemento (3.33). Questa differenza può in parte essere dovuta a partite più competitive sull’erba (35.3 game giocati in media), rispetto alla terra (33.1 game) e al cemento (34.0 game). Ovviamente, un maggior numero di game in un set concede più possibilità per ace e doppi falli.   

IMMAGINE 2 – Numero di partite del campione suddivise per superficie

Si potrebbe migliorare l’analisi ampliando il campione a partite delle passate stagioni e considerare partite nel periodo primaverile o in quello estivo. Ad esempio, la stagione o le condizioni meteo hanno più incidenza su una specifica superficie? Ci sono giocatori più esposti di altri al fattore fatica verso la fine della stagione?

La risposta (o la ricerca di una spiegazione) ad alcune di queste domande può aiutare a comprendere il rendimento dei giocatori con un grado di dettaglio più sofisticato.

Il codice per quest’analisi è disponibile qui.

How Tennis Surface Influences Player Performance

Un modello per il confronto tra tornei dei primi due mesi di stagione

di John McCool // sportsbrain

Pubblicato il 9 aprile 2018 – Traduzione di Edoardo Salvati

In media, i giocatori con una classifica più alta hanno avuto la meglio nel torneo di Auckland e agli Australian Open di inizio 2018. Sulla base della classifica media del vincitore di ciascuna partita, nei tornei di Quito e Sofia il livello della competizione è stato inferiore (in termini di classifica giocatore).

IMMAGINE 1 – Confronto tra tornei di inizio 2018 in termini di classifica dei vincitori di ciascuna partita

I giocatori più vecchi hanno mediamente battuto la controparte più giovane agli Australian Open (con 0.36 anni di differenza), a Auckland (1.49) e a Pune (1.86). Si è verificato il contrario a Sydney e a Brisbane, dove il vincitore è stato in media più giovane dello sconfitto di 1.2 anni. 

IMMAGINE 2 – Confronto tra tornei di inizio 2018 in termini di differenza di età tra vincitori e sconfitti

Un modello di tipo foresta casuale (random forest) è stato costruito usando la classifica, l’altezza e l’età dei vincitori e degli sconfitti, oltre alla superficie (cemento, erba, terra) su cui si gioca.

L’apprendimento automatico del modello si è sviluppato su 330 partite, mentre è stato messo alla prova su 129 partite della stagione 2018 (compresa la Coppa Davis).

IMMAGINE 3 – Variabili del modello di tipo foresta casuale, con la classifica del vincitore a essere la più efficace nel predire l’esito di qualsiasi partita

Il modello suggerisce che le variabili più importanti per predire l’esito di una partita sono la classifica del vincitore, la superficie e la classifica dello sconfitto. L’altezza dello sconfitto insieme alla sua età e a quella del vincitore hanno avuto, all’interno del modello, un potere predittivo inferiore. Complessivamente, è stato correttamente previsto l’esito del 74.4% delle partite del campione considerato. 

Il codice per quest’analisi è disponibile qui.

Early Stages of the Tennis Season

I giocatori più giovani hanno un rendimento migliore nelle partite più lunghe

di John McCool // sportsbrain (via CMUSportsAnalytics)

Pubblicato il 9 giugno 2017 – Traduzione di Edoardo Salvati

Il tennis è uno sport da giovani, in cui è richiesta una combinazione di resistenza fisica e rilascio esplosivo di energia da mantenere anche per diverse ore.

Punto dopo punto, i giocatori si trovano di fronte all’arduo sforzo di coprire il campo sulla linea di fondo e a rete, dovendo rispondere a servizi che spesso superano i 200 km/h e nell’obbligo di giocare colpi perfettamente indirizzati.

Sport come il baseball e il golf sottopongono il fisico a un logoramento meno intenso. Un prima base che colpisce una fastball o una palla curva lenta, o un golfista che possiede la forza di spedire abitualmente una pallina in fairway a più di 250 metri di distanza, riescono probabilmente a giocare a quei livelli ben oltre i trent’anni più di quanto sia possibile a un giocatore di tennis con una simile carriera.

Nel tennis, la tendenza è a raggiungere il proprio massimo di rendimento intorno ai 24 o 25 anni. La leggenda Boris Becker ad esempio ha vinto il suo ultimo Slam a 28 anni. Allo stesso modo, sia John McEnroe che Bjorn Borg hanno conquistato l’ultimo Slam nella quasi età pensionabile di venticinquenni, aspetto che rende la recente vittoria di Roger Federer a 35 anni agli Australian Open 2017 ancora più incredibile.

L’ipotesi

Ritenere che i giocatori più giovani tendano a rendere meglio dei loro avversari di età superiore in partite molto lunghe può avere fondamento.

Per mettere alla prova questa ipotesi, ho analizzato 12.032 partite nel periodo tra il 2012 e il 2016. Sono state escluse quelle con durata inferiore a 30 minuti perché, nella maggior parte dei casi, sono terminate con un ritiro.

IMMAGINE 1 – La differenza media tra l’età dei vincitori e quella degli sconfitti (asse delle ordinate) rapportata alla durata della partite (asse delle ascisse), tra il 2012 e il 2016

Nel campione considerato, le partite durate meno di 77 minuti (al di sotto del primo quartile) in media hanno leggermente favorito i giocatori più vecchi.

In queste partite più brevi, la differenza media di età tra vincitori e sconfitti è stata di 0.37, a indicazione del fatto che i giocatori più vecchi tendono effettivamente a fare meglio dei più giovani.

Differenza massima intorno al centesimo minuto

La differenza media di età (tra il giocatore che ha vinto e quello che ha perso la partita) raggiunge il suo massimo intorno al centesimo minuto della partita, per poi iniziare a prendere stabilmente la direzione del giocatore più giovane fino al minuto 215 della partita.

Per avere un termine di paragone, in 1313 partite tra il minuto 150 e il minuto 215, l’età media dei vincitori è stata di 27.4 rispetto all’età media degli sconfitti di 27.5. In questi 75 minuti di partita, i giocatori più giovani hanno mediamente battuto i rivali più anziani in ogni stagione tranne il 2012.

Superato il minuto 215, i giocatori più vecchi hanno vinto più spesso dei loro corrispettivi più giovani. Però, solo 255 partite sono andate oltre questa soglia, e un campione di dimensioni maggiori consentirebbe un’analisi più precisa del rendimento dei giocatori più giovani quando la partita diventa molto lunga (appunto oltre i 215 minuti).

IMMAGINE 2 – Istogrammi per l’età media dei vincitori (in arancione) e degli sconfitti (in blu), tra il 2012 e il 2016

Lo scontro tra facce d’angelo e veterani brizzolati

Se da un lato è vero che i giocatori che si avvicinano ai trent’anni o che li hanno da poco superati hanno meno probabilità di vincere un torneo dello Slam, dall’altro l’età media dei vincitori (27.7) ha eclissato l’età media degli sconfitti (27.5), vale a dire che – tra il 2012 e il 2016 – i giocatori più vecchi hanno fatto meglio dei giocatori più giovani. In parte, l’età media dei vincitori è aumentata leggermente perché Roger Federer, Stanislas Wawrinka e Rafael Nadal, tutti almeno trentenni, sono tra i giocatori di vertice nel circuito maschile.

Complessivamente però, l’età media dei vincitori per i giocatori tra i primi 50 della classifica è di 27.3 anni rispetto ai 27.5 per i giocatori fuori dai primi 50.

Se dal campione si eliminano i giocatori più piccoli di venticinque anni, l’età media dei vincitori scende sotto all’età media degli sconfitti di -0.1 punti, segnalando un leggero vantaggio per i giocatori più giovani.

È un risultato che ha senso, considerando che i giocatori che si avvicinano ai vent’anni o che li hanno da poco superati hanno mediamente meno esperienza e probabilmente non hanno ancora raggiunto il loro livello massimo.

Si è trovato anche che i veterani, giocatori con almeno trent’anni, hanno mediamente la meglio sui giocatori al di sotto di venticinque anni. Negli scontri diretti, i primi hanno vinto con una frequenza del 53% su 1621 partite.

Conclusioni

Nel tempo, alcuni tra i giocatori più giovani avranno la possibilità di vincere future edizioni degli US Open o di Wimbledon. Il tennis è uno sport costruito per gambe giovani e ricompensa chi è in grado di mantenere un alto livello di gioco alto anche a partita.

Con Nadal e Federer destinati a ritirarsi dal professionismo, un nuovo gruppo di giovani prodigio tra cui Alexander Zverev (diciannovenne) e Thanasi Kokkinakis (ventenne) non aspettano altro che sovvertire l’élite mondiale che sta invecchiando.

Younger Tennis Players Fair Better In Longer Matches

La fatica è un fattore anche nel tennis?

di John McCool // sportsbrain

Pubblicato il 27 ottobre 2017 – Traduzione di Edoardo Salvati

Valutazioni e pronostici sulle prestazioni di un giocatore o di una squadra non possono prescindere dal fattore fatica. Nella NBA ad esempio, le squadre devono tipicamente giocare tre o quattro partite a settimana, un ritmo che può comportare una diminuzione nel livello di gioco, specialmente verso la fine della stagione regolare.

È per questo che alcuni allenatori, come Greg Popovich dei San Antonio Spurs, fanno riposare a più riprese i loro giocatori migliori nelle fasi conclusive del campionato, prima dell’inizio dei play-off.

La fatica a cui un giocatore è sottoposto è di particolare preoccupazione per gli scommettitori, che aggiustano i loro modelli predittivi nel caso in cui un giocatore o una squadra siano costretti dal calendario a giocare due giorni di fila o si trovino alla fine di una lunga trasferta.

Contesto e livello di stanchezza

Il tennis è un altro sport che impone di mantenere un alto livello di rendimento fisico e mentale, in cui la maggior parte dei giocatori viaggia durante una stagione di nove mesi in più continenti, con il cambio di molti fusi orari.

I modelli che predicono gli esiti di una partita di tennis considerano variabili quali la bravura di un giocatore o il tipo di superficie. Può però essere utile esaminare anche il contesto in cui si svolge la partita e il grado di stanchezza di un giocatore nel momento in cui si accinge ad affrontarla.

La maggior parte di questi modelli predittivi ipotizza che ogni game e ogni servizio siano indipendentemente e identicamente distribuiti. Cosa accade però se un determinato giocatore ha un rendimento migliore al servizio quando è avanti nel punteggio ma fa fatica quando è alla risposta, ad esempio sulla terra battuta? E riesce ad avere delle buone prestazioni in partite più lunghe della media?

Rendimento in partite più lunghe della media

L’analisi che segue cerca di rispondere a quest’ultima domanda. Si è principalmente interessati infatti a valutare se il rendimento di un giocatore diminuisca in termini di vittorie e sconfitte a seguito di una partita più lunga di 101 minuti (la mediana della durata di una partita del campione considerato). È stato escluso il confronto nel caso in cui un giocatore abbia avuto più un paio di giorni di riposo tra una partita e l’altra, in quanto l’effetto fatica ne verrebbe limitato.

È stato selezionato un campione casuale di 481 partite dalla stagione maschile 2016 del circuito maggiore, utilizzando i dati messi a disposizione da Jeff Sackmann di TennisAbstract.

Si è creata poi una variabile binaria per verificare se una partita è durata più di 101 minuti ed è stata usata una funzione ForLoop di Python per calcolare l’esito della partita successiva del medesimo giocatore, considerando elementi come il nome del vincitore, la lunghezza della partita in minuti, la classifica sia del vincitore che dello sconfitto.

Il modello di regressione logistica usato è costruito sulla classifica del vincitore, sulla classifica dello sconfitto e sulla durata della partita precedente nel caso sia andata oltre il valore mediano di 101 minuti.

La classifica è più predittiva del livello di stanchezza

Complessivamente, si è trovato che la fatica non altera in modo significativo il rendimento di un giocatore in termini di partite vinte e perse (p > 0.05), è stata invece la classifica del giocatore che ha perso quella determinata partita a essere molto più predittiva dell’esito finale (p < 0.01).

IMMAGINE 1 – La relazione tra la differenza nella durata della partita tra partite consecutive in termini di minuti e probabilità di vittoria. Una differenza negativa di durata indica che la partita attuale di un giocatore è stata più corta della precedente, e viceversa

Questo suggerisce che la fatica nel tennis ha un ruolo di secondo piano rispetto al livello di bravura del giocatore. È importante notare però che il modello non tiene conto della durata della precedente partita giocata dall’avversario e che si basa su un campione di partite esclusive della stagione 2016.

Classificatore bayesiano

È stato anche usato un basico classificatore bayesiano – un algoritmo “predittivo di una classe dato un insieme di un insieme di caratteristiche” – per misurare la probabilità di vittoria di un determinato giocatore in funzione del fatto che la sua precedente partita abbia avuto una durata superiore o inferiore rispetto alla durata mediana di una partita.

Rispetto al basico classificatore bayesiano, è difficile stabilire l’ampiezza del ruolo della fatica in una vittoria o in una sconfitta. Nel campione, i giocatori che hanno giocato una partita più lunga della mediana (nella partita precedente) avevano il 47% di probabilità di vittoria, contro il 48% di probabilità nelle partite che sono terminate prima della durata mediana.

È importante anche aggiungere che il classificatore non considera se la precedente partita dell’avversario è durata più a lungo del valore mediano.

Altre analisi e altri modelli

Ci sono altre analisi che si concentrano sulla diminuzione della velocità del servizio di un giocatore all’avanzare del torneo, come quella di Stephanie Kovalchik del Game Insight Group di Tennis Australia, la Federazione australiana, che ha verificato come il servizio di Dominic Thiem agli US Open 2017 sia sceso dai 150 km/h dell’inizio del torneo ai 135 km/h del quarto e suo ultimo turno.

Questo evidenzia la presenza di un fattore fatica nel tennis. Vittorie e sconfitte però non sono necessariamente legate alla durata della partita ed è più probabile che sia il livello di bravura di un giocatore o del suo avversario a determinare l’esito finale.

Altri modelli potrebbero valutare in che misura il riposo (quindi il giorno o i giorni tra una partita e la successiva) influisca sulla prestazione dei giocatori.

Il codice dell’analisi è disponibile qui.

Is Fatigue a Factor in Tennis?