Novembre 2017 - settesei.it

I giocatori più giovani hanno un rendimento migliore nelle partite più lunghe

di John McCool // sportsbrain (via CMUSportsAnalytics)

Pubblicato il 9 giugno 2017 – Traduzione di Edoardo Salvati

Il tennis è uno sport da giovani, in cui è richiesta una combinazione di resistenza fisica e rilascio esplosivo di energia da mantenere anche per diverse ore.

Punto dopo punto, i giocatori si trovano di fronte all’arduo sforzo di coprire il campo sulla linea di fondo e a rete, dovendo rispondere a servizi che spesso superano i 200 km/h e nell’obbligo di giocare colpi perfettamente indirizzati.

Sport come il baseball e il golf sottopongono il fisico a un logoramento meno intenso. Un prima base che colpisce una fastball o una palla curva lenta, o un golfista che possiede la forza di spedire abitualmente una pallina in fairway a più di 250 metri di distanza, riescono probabilmente a giocare a quei livelli ben oltre i trent’anni più di quanto sia possibile a un giocatore di tennis con una simile carriera.

Nel tennis, la tendenza è a raggiungere il proprio massimo di rendimento intorno ai 24 o 25 anni. La leggenda Boris Becker ad esempio ha vinto il suo ultimo Slam a 28 anni. Allo stesso modo, sia John McEnroe che Bjorn Borg hanno conquistato l’ultimo Slam nella quasi età pensionabile di venticinquenni, aspetto che rende la recente vittoria di Roger Federer a 35 anni agli Australian Open 2017 ancora più incredibile.

L’ipotesi

Ritenere che i giocatori più giovani tendano a rendere meglio dei loro avversari di età superiore in partite molto lunghe può avere fondamento.

Per mettere alla prova questa ipotesi, ho analizzato 12.032 partite nel periodo tra il 2012 e il 2016. Sono state escluse quelle con durata inferiore a 30 minuti perché, nella maggior parte dei casi, sono terminate con un ritiro.

IMMAGINE 1 – La differenza media tra l’età dei vincitori e quella degli sconfitti (asse delle ordinate) rapportata alla durata della partite (asse delle ascisse), tra il 2012 e il 2016

Nel campione considerato, le partite durate meno di 77 minuti (al di sotto del primo quartile) in media hanno leggermente favorito i giocatori più vecchi.

In queste partite più brevi, la differenza media di età tra vincitori e sconfitti è stata di 0.37, a indicazione del fatto che i giocatori più vecchi tendono effettivamente a fare meglio dei più giovani.

Differenza massima intorno al centesimo minuto

La differenza media di età (tra il giocatore che ha vinto e quello che ha perso la partita) raggiunge il suo massimo intorno al centesimo minuto della partita, per poi iniziare a prendere stabilmente la direzione del giocatore più giovane fino al minuto 215 della partita.

Per avere un termine di paragone, in 1313 partite tra il minuto 150 e il minuto 215, l’età media dei vincitori è stata di 27.4 rispetto all’età media degli sconfitti di 27.5. In questi 75 minuti di partita, i giocatori più giovani hanno mediamente battuto i rivali più anziani in ogni stagione tranne il 2012.

Superato il minuto 215, i giocatori più vecchi hanno vinto più spesso dei loro corrispettivi più giovani. Però, solo 255 partite sono andate oltre questa soglia, e un campione di dimensioni maggiori consentirebbe un’analisi più precisa del rendimento dei giocatori più giovani quando la partita diventa molto lunga (appunto oltre i 215 minuti).

IMMAGINE 2 – Istogrammi per l’età media dei vincitori (in arancione) e degli sconfitti (in blu), tra il 2012 e il 2016

Lo scontro tra facce d’angelo e veterani brizzolati

Se da un lato è vero che i giocatori che si avvicinano ai trent’anni o che li hanno da poco superati hanno meno probabilità di vincere un torneo dello Slam, dall’altro l’età media dei vincitori (27.7) ha eclissato l’età media degli sconfitti (27.5), vale a dire che – tra il 2012 e il 2016 – i giocatori più vecchi hanno fatto meglio dei giocatori più giovani. In parte, l’età media dei vincitori è aumentata leggermente perché Roger Federer, Stanislas Wawrinka e Rafael Nadal, tutti almeno trentenni, sono tra i giocatori di vertice nel circuito maschile.

Complessivamente però, l’età media dei vincitori per i giocatori tra i primi 50 della classifica è di 27.3 anni rispetto ai 27.5 per i giocatori fuori dai primi 50.

Se dal campione si eliminano i giocatori più piccoli di venticinque anni, l’età media dei vincitori scende sotto all’età media degli sconfitti di -0.1 punti, segnalando un leggero vantaggio per i giocatori più giovani.

È un risultato che ha senso, considerando che i giocatori che si avvicinano ai vent’anni o che li hanno da poco superati hanno mediamente meno esperienza e probabilmente non hanno ancora raggiunto il loro livello massimo.

Si è trovato anche che i veterani, giocatori con almeno trent’anni, hanno mediamente la meglio sui giocatori al di sotto di venticinque anni. Negli scontri diretti, i primi hanno vinto con una frequenza del 53% su 1621 partite.

Conclusioni

Nel tempo, alcuni tra i giocatori più giovani avranno la possibilità di vincere future edizioni degli US Open o di Wimbledon. Il tennis è uno sport costruito per gambe giovani e ricompensa chi è in grado di mantenere un alto livello di gioco alto anche a partita.

Con Nadal e Federer destinati a ritirarsi dal professionismo, un nuovo gruppo di giovani prodigio tra cui Alexander Zverev (diciannovenne) e Thanasi Kokkinakis (ventenne) non aspettano altro che sovvertire l’élite mondiale che sta invecchiando.

Younger Tennis Players Fair Better In Longer Matches

Ridimensionando la stagione di Federer

di Stephanie Kovalchik // OnTheT

Pubblicato il 23 novembre 2017 – Traduzione di Edoardo Salvati

La “rinascita” di Roger Federer è stata senza dubbio uno dei temi caldi della stagione 2017. Dopo l’ultima partita giocata a Londra contro David Goffin, come si pone questa stagione rispetto al passato? E, nel tentativo di mettere a confronto di diverse stagioni, qual è la statistica migliore?

Con solo cinque sconfitte e due Slam vinti, Federer ha contribuito ad alimentare il dibattito sulla migliore stagione della sua carriera. Quanto ottenuto nel 2017 fa passare in secondo piano il rendimento del 2015? È tornato ai livelli del 2005? Si è di fronte al vero e proprio miracolo di un giocatore che ha superato i 36 anni? Si potrebbe continuare a lungo su questa strada.

Non esiste una statistica definitiva del valore assoluto di una stagione. Si citano spesso i risultati negli Slam, o la percentuale di vittorie, o le vittorie totali, per fare alcuni esempi.

In attesa della nuova stagione, ho ritenuto interessante esaminare i numeri delle statistiche più diffuse sulla “stagione migliore” e verificare il loro contributo nel suggerire quali siano gli anni tennistici più positivi per Federer.

Titoli

Iniziamo con i titoli vinti nella singola stagione considerando tutti i tornei del circuito maggiore, la Coppa Davis e le Olimpiadi. La tabella mostra le dodici migliori stagioni di Federer in funzione dei titoli vinti. Con dodici tornei vinti, il 2006 è in cima all’elenco, subito seguito dal 2004 e dal 2005 entrambi con undici titoli.

Limitandosi agli Slam, Federer ha avuto tre stagioni con tre vittorie, il 2004, 2006 e 2007. Anche se il 2017 sarebbe al sesto posto come numero di titoli, è al pari del 2005 in termini di Slam vinti. È interessante come pur avendo vinto un numero simile di tornei nel 2015, Federer non sia riuscito a conquistare nemmeno uno Slam.

Percentuale di vittorie

Se da un lato il numero di titoli è un indicatore della continuità di rendimento ad alto livello, dall’altro non tiene conto dei risultati di un giocatore nei tornei che non è riuscito a vincere. La percentuale di vittorie per la stagione è una statistica di prestazione più completa.

L’immagine 1 mostra la percentuale di vittorie di Federer dagli esordi come professionista fino al presente. Si nota un chiaro punto di massimo verso metà degli anni 2000, quando Federer ha messo insieme tre stagioni da più del 90% di vittorie, dal 2004 al 2006. Il 95% di vittorie raggiunto nel 2005 e nel 2006 è il più alto in carriera.

IMMAGINE 1 – Valutazione delle stagioni di Federer: percentuale di vittorie

Anzi, dal 2006 Federer è riuscito a rimanere sopra al 90% di vittorie solo quest’anno, a possibile spiegazione del perché il 2017 è ritenuto così speciale da numerosi commentatori.

Si potrebbe obiettare che la percentuale di vittorie non pone sufficiente enfasi sui momenti di maggiore pressione o sulla qualità del tabellone affrontato da un giocatore nella vittoria del titolo.

Per dare più peso a questi fattori, possiamo analizzare la percentuale di vittorie negli Slam (di colore oro nel grafico). In questo caso, è interessante notare come Federer sembra aver mantenuto un livello di gioco superiore per tutti gli anni 2000, facendo apparire il 2017 – in cui ha subito solo una sconfitta negli Slam – meno distante dal 2005 e dal 2006.

Risultati cumulati corretti per la qualità dell’avversario

Il semplice conteggio dei titoli vinti o i risultati espressi in termini percentuali sono metodi che sollevano una problematica rilevante, cioè il fatto di non tenere conto della bravura del giocatore dall’altra parte della rete. Non ci sono due vittorie esattamente identiche e il motivo risiede principalmente nella differenza qualitativa dell’avversario.

A metà degli anni 2000, era Andy Roddick l’avversario più probabile per Federer in una finale Slam. Dal 2015, Federer ha giocato più finali Slam contro Novak Djokovic. E io credo che questo aspetto dovrebbe cambiare prospettiva sulla misurazione delle vittorie di Federer tra le diverse stagioni.

Uno strumento con cui procedere è il sistema di valutazione Elo. All’inizio di ogni partita, la valutazione Elo di ciascun giocatore rappresenta la sua vittoria attesa: maggiore la valutazione dell’avversario (vale a dire la difficoltà del doverci giocare contro) minore la probabilità di vittoria.

Un giocatore dovrebbe ricevere un punteggio addizionale in caso di superamento delle aspettative ed essere allo stesso modo penalizzato in maniera ridotta per sconfitte contro giocatori di vertice.

Il punteggio della partita cumulato corretto per la qualità dell’avversario cerca di includere entrambi questi aggiustamenti. Illustro il funzionamento.

Un giocatore riceve un punteggio, per ogni vittoria, equivalente alla vittoria attesa dell’avversario contro un giocatore con valutazione Elo pari a 1800 (cioè il valore minimo tipico per un giocatore tra i primi 100 della classifica mondiale).

Per ogni sconfitta, a un giocatore è sottratto il punteggio associato all’effettiva vittoria attesa – in funzione della sua valutazione Elo prima della partita – in misura corrispondente a quanto facile ci si aspettava fosse la vittoria, in modo che una maggiore facilità determini una maggiore deduzione di punteggio.

Successivamente, si sommano vittorie e sconfitte ponderate per difficoltà così da ottenere il punteggio complessivo per stagione.

Molta più variazione

Osservando l’andamento del punteggio della partita cumulato per Federer, è interessante vedere come il suo massimo a metà degli anni 2000 sia ancora più significativo dei riscontri avuti con una semplice statistica dei titoli vinti o della percentuale di vittorie. Questo suggerisce come ci sia molta più variazione nei risultati delle sue partite di quanto appaia dalle statistiche citate in precedenza.

Il 2006 s’impone come stagione dal rendimento più solido quando si osserva la difficoltà cumulata dei risultati ottenuti da Federer. Un aspetto sorprendente è che il 2017 è decisamente lontano dal 2006 (-24.9 punti). Ci sono alcune ragioni a spiegazione.

In primo luogo, Federer giocava un numero di partite di gran lunga superiore rispetto a quelle del periodo attuale, in cui ad esempio non ha disputato alcun torneo sulla terra battuta.

Inoltre, la profondità del campo partecipanti ha subito variazioni importanti di anno in anno e il 2017 si è sorprendentemente distinto per mancanza di qualità, circostanza su cui hanno influito lo scarso rendimento e gli infortuni dei giocatori di vertice.

IMMAGINE 2 – Valutazione delle stagioni di Federer: risultati ponderati per difficoltà

L’impatto del fattore qualità è più evidente mettendo a confronto il 2014 e 2015 con il 2017. Sia il 2014 che il 2015 superano il 2017 di diversi punti. Anche eliminando la stagione sulla terra, il 2014 di Federer supererebbe il 2017 per poco più di 5 punti.

Conclusioni

In conclusione, anche con i due Slam vinti da Federer nel 2017, le poche ma inaspettate sconfitte e la generale diminuzione nella qualità tra i giocatori di vertice supportano l’idea che il 2014 e il 2015 – in cui Federer non è riuscito a vincere Slam – siano state annate con un rendimento complessivo superiore.

Il codice e i dati dell’analisi sono disponibili qui.

Sizing Up Federer’s Seasons

La fatica è un fattore anche nel tennis?

di John McCool // sportsbrain

Pubblicato il 27 ottobre 2017 – Traduzione di Edoardo Salvati

Valutazioni e pronostici sulle prestazioni di un giocatore o di una squadra non possono prescindere dal fattore fatica. Nella NBA ad esempio, le squadre devono tipicamente giocare tre o quattro partite a settimana, un ritmo che può comportare una diminuzione nel livello di gioco, specialmente verso la fine della stagione regolare.

È per questo che alcuni allenatori, come Greg Popovich dei San Antonio Spurs, fanno riposare a più riprese i loro giocatori migliori nelle fasi conclusive del campionato, prima dell’inizio dei play-off.

La fatica a cui un giocatore è sottoposto è di particolare preoccupazione per gli scommettitori, che aggiustano i loro modelli predittivi nel caso in cui un giocatore o una squadra siano costretti dal calendario a giocare due giorni di fila o si trovino alla fine di una lunga trasferta.

Contesto e livello di stanchezza

Il tennis è un altro sport che impone di mantenere un alto livello di rendimento fisico e mentale, in cui la maggior parte dei giocatori viaggia durante una stagione di nove mesi in più continenti, con il cambio di molti fusi orari.

I modelli che predicono gli esiti di una partita di tennis considerano variabili quali la bravura di un giocatore o il tipo di superficie. Può però essere utile esaminare anche il contesto in cui si svolge la partita e il grado di stanchezza di un giocatore nel momento in cui si accinge ad affrontarla.

La maggior parte di questi modelli predittivi ipotizza che ogni game e ogni servizio siano indipendentemente e identicamente distribuiti. Cosa accade però se un determinato giocatore ha un rendimento migliore al servizio quando è avanti nel punteggio ma fa fatica quando è alla risposta, ad esempio sulla terra battuta? E riesce ad avere delle buone prestazioni in partite più lunghe della media?

Rendimento in partite più lunghe della media

L’analisi che segue cerca di rispondere a quest’ultima domanda. Si è principalmente interessati infatti a valutare se il rendimento di un giocatore diminuisca in termini di vittorie e sconfitte a seguito di una partita più lunga di 101 minuti (la mediana della durata di una partita del campione considerato). È stato escluso il confronto nel caso in cui un giocatore abbia avuto più un paio di giorni di riposo tra una partita e l’altra, in quanto l’effetto fatica ne verrebbe limitato.

È stato selezionato un campione casuale di 481 partite dalla stagione maschile 2016 del circuito maggiore, utilizzando i dati messi a disposizione da Jeff Sackmann di TennisAbstract.

Si è creata poi una variabile binaria per verificare se una partita è durata più di 101 minuti ed è stata usata una funzione ForLoop di Python per calcolare l’esito della partita successiva del medesimo giocatore, considerando elementi come il nome del vincitore, la lunghezza della partita in minuti, la classifica sia del vincitore che dello sconfitto.

Il modello di regressione logistica usato è costruito sulla classifica del vincitore, sulla classifica dello sconfitto e sulla durata della partita precedente nel caso sia andata oltre il valore mediano di 101 minuti.

La classifica è più predittiva del livello di stanchezza

Complessivamente, si è trovato che la fatica non altera in modo significativo il rendimento di un giocatore in termini di partite vinte e perse (p > 0.05), è stata invece la classifica del giocatore che ha perso quella determinata partita a essere molto più predittiva dell’esito finale (p < 0.01).

IMMAGINE 1 – La relazione tra la differenza nella durata della partita tra partite consecutive in termini di minuti e probabilità di vittoria. Una differenza negativa di durata indica che la partita attuale di un giocatore è stata più corta della precedente, e viceversa

Questo suggerisce che la fatica nel tennis ha un ruolo di secondo piano rispetto al livello di bravura del giocatore. È importante notare però che il modello non tiene conto della durata della precedente partita giocata dall’avversario e che si basa su un campione di partite esclusive della stagione 2016.

Classificatore bayesiano

È stato anche usato un basico classificatore bayesiano – un algoritmo “predittivo di una classe dato un insieme di un insieme di caratteristiche” – per misurare la probabilità di vittoria di un determinato giocatore in funzione del fatto che la sua precedente partita abbia avuto una durata superiore o inferiore rispetto alla durata mediana di una partita.

Rispetto al basico classificatore bayesiano, è difficile stabilire l’ampiezza del ruolo della fatica in una vittoria o in una sconfitta. Nel campione, i giocatori che hanno giocato una partita più lunga della mediana (nella partita precedente) avevano il 47% di probabilità di vittoria, contro il 48% di probabilità nelle partite che sono terminate prima della durata mediana.

È importante anche aggiungere che il classificatore non considera se la precedente partita dell’avversario è durata più a lungo del valore mediano.

Altre analisi e altri modelli

Ci sono altre analisi che si concentrano sulla diminuzione della velocità del servizio di un giocatore all’avanzare del torneo, come quella di Stephanie Kovalchik del Game Insight Group di Tennis Australia, la Federazione australiana, che ha verificato come il servizio di Dominic Thiem agli US Open 2017 sia sceso dai 150 km/h dell’inizio del torneo ai 135 km/h del quarto e suo ultimo turno.

Questo evidenzia la presenza di un fattore fatica nel tennis. Vittorie e sconfitte però non sono necessariamente legate alla durata della partita ed è più probabile che sia il livello di bravura di un giocatore o del suo avversario a determinare l’esito finale.

Altri modelli potrebbero valutare in che misura il riposo (quindi il giorno o i giorni tra una partita e la successiva) influisca sulla prestazione dei giocatori.

Il codice dell’analisi è disponibile qui.

Is Fatigue a Factor in Tennis?

Gli effetti conseguenti all’avere trentadue teste di serie in tabellone

di Jeff Sackmann // TennisAbstract

Pubblicato il 28 maggio 2014 – Traduzione di Edoardo Salvati

A metà del 2001, il numero di teste di serie nei tabelloni degli Slam è raddoppiato, passando a trentadue dalle sedici iniziali, una modifica “finalizzata a proteggere le stelle dello sport e soddisfare gli specialisti della terra battuta e dell’erba”.

I giocatori designati per beneficiare di questo cambiamento erano, naturalmente, tutte le teste di serie. Quelle tra le prime sedici non dovevano più preoccuparsi di giocare contro uno dei primi 32 della classifica prima del terzo turno, quelli classificati tra il numero 17 e il 32 avrebbero potuto dover giocare contro uno dei primi 16 al primo turno, rischio azzerato dallo stesso tipo di protezione.

Esternalità negative del sistema a 32

Le esternalità negative di un sistema a trentadue teste di serie ricadono su due gruppi: i giocatori fuori dalle teste di serie, per i quali è più probabile ora giocare contro un giocatore di vertice nei primi turni; e gli spettatori della prima settimana, che vorrebbero vedere partite più avvincenti nei primi turni.

Anche se la sconfitta odierna di Serena Williams (al secondo turno del Roland Garros 2014 da parte di Garbine Muguruza, n.d.t.) può essere facilmente usata come contro-argomentazione, i primi due turni di uno Slam sembrano spesso per i più forti partite di riscaldamento contro giocatori inferiori che fungono da vittime sacrificali.

Di contro però, è difficile intuitivamente rendersi conto di quanto ci sia in palio. E potrebbe non essere tutto quello che si crede. Dal 1989 al 2000, le teste di serie del singolare maschile hanno perso 263 volte nei primi due turni di uno Slam. Solo 51 di quelle sconfitte hanno riguardato i primi 32 della classifica.

In altre parole, più dell’80% delle vittorie a sorpresa sarebbe comunque avvenuta con un sistema a 32 teste di serie e, presumibilmente, qualcuna delle rimanenti 51 partite sarebbe comunque terminata con un risultato inatteso.

Dal punto di vista delle prime sedici teste di serie, potrebbe non esserci così tanta differenza nell’avere avversari nel secondo gruppo di teste di serie, dalla diciassette alla trentadue, o con una classifica ancora inferiore.

Un esempio per tutti: questa settimana Stanislas Wawrinka avrebbe preferito giocare contro diverse teste di serie che dover affrontare Guillermo Garcia Lopez (da cui ha perso al primo turno per 6-4 5-7 6-2 6-0, n.d.t.)

In campo femminile

Per le prime 4 del mondo, non c’è stata alcuna differenza. Nei dodici anni precedenti all’introduzione della modifica, hanno raggiunto il terzo turno in 176 tentativi su 190.

Nei dodici anni successivi al cambiamento le prime quattro teste di serie, che non rischiavano più di dover giocare contro una giocatrice tra le prime 32 nei primi due turni, hanno raggiunto il terzo turno 178 volte su 191.

A dire il vero, il sistema a 32 teste di serie non ha in genere aiutato le prime sedici teste di serie femminili. Dal 1989 al 2000, le teste di serie hanno raggiunto il terzo turno il 77.6% delle volte, il quarto turno il 63.5% e i quarti di finale il 40.8%. Dal 2002 al 2013, contro avversarie nei primi turni di bassa classifica, le percentuali corrispondenti sono state 78.2%, 60.1% e 37.1%.

È probabile che, almeno in parte, la differenza sia da attribuire all’aumento della competitività del tennis femminile, ma è altrettanto plausibile che il sistema a trentadue teste di serie abbia drasticamente snaturato gli Slam, almeno per i giocatori che sono sempre stati teste di serie.

Le prime sedici teste di serie hanno sicuramente tratto beneficio, raggiungendo il terzo e quarto turno e i quarti di finale circa il 10% in più a seguito dell’allargamento, ma anche in questo caso non siamo di fronte a partite radicalmente diverse durante la seconda settimana.

Dove sta il vero cambiamento

Il vero cambiamento, come si poteva sospettare, si manifesta quando si considerano i rapporti di forza tra le nuove teste di serie (dalla diciassette alla trentadue) e il resto dei partecipanti.

Dal 1989 al 2000, nel singolare maschile i giocatori classificati tra il 17esimo e il 32esimo posto hanno raggiunto il terzo turno circa il doppio delle volte (il 35% contro il 17%) rispetto a quelli di classifica inferiore. Tra le donne, le giocatrici classificate tra il 17esimo e il 32esimo posto hanno ottenuto un margine ancora più ampio, 39% contro 15%.

In presenza del sistema a trentadue teste di serie e con la protezione del gruppo dal 17esimo al 32esimo posto, le differenze sono aumentate in modo significativo. Dal 2002 al 2013, i giocatori fuori dalle prime sedici teste di serie hanno raggiunto il terzo turno il 53% delle volte, rispetto al 12% dei giocatori fuori dalle teste di serie.

Sul fronte femminile, le giocatrici con testa di serie tra diciassette e trentadue sono arrivate al terzo turno il 49% delle volte, mentre le giocatrici fuori dalle teste di serie si sono fermate al 12%, come per gli uomini.

Questi scostamenti, per quanto importanti, avranno scarso impatto sul divertimento che molti degli appassionati derivano dagli Slam. Il cambiamento di formato significa che Rafael Nadal deve giocare contro un giocatore al 60esimo posto della classifica al secondo turno e uno al 30esimo posto al terzo turno. Quasi sicuramente Nadal vincerà entrambe le partite, e quindi il risultato finale è identico. Il fattore sorpresa in un quarto di finale non cambia se è alimentato dal numero 25 del mondo o dal numero 50.

Aumenta la distanza tra aventi e non aventi

Tuttavia, il sistema a trentadue teste di serie amplifica la distanza tra gli aventi e i non aventi del tennis. Negli ultimi anni gli Slam hanno sì considerevolmente aumentato i premi partita per tutti i giocatori del tabellone principale – chi perde al primo turno a Parigi comunque guadagna più di 32.000 dollari – ma il giocatore o la giocatrice che raggiunge il terzo turno è in grado di triplicare quella cifra.

Come abbiamo visto, la modifica ha reso più probabile che le trentadue teste di serie raggiungano il terzo turno (portando a casa cifre vicine ai sei zeri) a spese di giocatori con classifica inferiore, senza che questo abbia un effetto rilevante nella composizione dei giocatori in tabellone dal quarto turno in avanti.

Inoltre, i punti a disposizione negli Slam determinano la situazione per la quale i giocatori che arrivano al terzo turno hanno più probabilità di rientrare tra le teste di serie al turno successivo, alimentando un analogo flusso ciclico per gli Slam successivi.

Avere trentadue teste di serie anziché sedici non altera sensibilmente il destino dei giocatori di vertice, specialmente in campo femminile. Però, può far calare l’interesse per le prime giornate di gioco, e certamente va a supporto di una fascia arbitraria di giocatori a spese del resto dei partecipanti.

Se l’era a trentadue teste di serie dovesse terminare oggi, gli appassionati di tennis avrebbero pochi motivi per sentirne la mancanza.

The Effect of 32 Seeds

Rendimento al servizio e alla risposta secondo il sistema di valutazione Elo

di Stephanie Kovalchik // OnTheT

Pubblicato il 18 novembre 2017 – Traduzione di Edoardo Salvati

Il sistema Elo è uno degli strumenti più diffusi per valutare il rendimento di giocatori e squadre. In questo articolo, voglio mostrare come si possa utilizzare Elo andando oltre il record di vittorie e sconfitte per valutare invece i giocatori di tennis in relazione a due aspetti fondamentali: il servizio e la risposta.

Sono diverse le modalità di valutazione dei giocatori, e se ne può incontrare la maggior parte nei dibattiti sul migliore di sempre, nei quali alcuni preferiscono fare riferimento ai titoli Slam, altri alle percentuali di vittoria, altri ancora alle settimane consecutive al primo posto della classifica mondiale e così via. Gli esperti di statistiche hanno preferenza per le valutazioni Elo, un sistema che, sebbene ancora ai primordi nel tennis, è tra i più popolari negli altri sport.

Le valutazioni Elo sono destinatarie di attenzione speciale per diverse ragioni. Quando si tratta di valutare la bravura di un giocatore, hanno dimostrato infatti di essere superiori alla classifica ufficiale adottata dall’ATP. Inoltre, le valutazioni Elo e altri analoghi sistemi di raffronto condividono un elemento rafforzativo che li contraddistingue, cioè il tenere conto del livello dell’avversario nella determinazione della bontà dei risultati ottenuti da un giocatore.

Potrei andare avanti a lungo sulle qualità del sistema Elo, quello di cui voglio in realtà parlare è uno dei suoi difetti. A ben vedere, si tratta di un difetto non tanto del sistema in sé quanto del modo in cui è stato solitamente applicato alle situazioni di studio.

Le valutazioni Elo nel tennis

Le valutazioni presenti in questo spazio o su TennisAbstract o FiveThirtyEight sono basate sul record di vittorie e sconfitte. In altre parole, le variazioni in positivo e in negativo della valutazione di un giocatore dipendono solamente da: a) l’avversario affrontato, b) se il giocatore ha vinto o perso.

Eppure sappiamo che la bravura che determina quelle vittorie può apparire ben diversa da un giocatore all’altro. Consideriamo ad esempio la contrapposizione tra l’attuale numero 24 del mondo Milos Raonic e il 26 del mondo Diego Schwartzman. Nonostante la classifica ravvicinata, il talento in possesso di questi due giocatori non potrebbe essere più diverso. Raonic è molto forte al servizio mentre Schwartzman si mette in luce soprattutto alla risposta.

Una disparità di prestazione al servizio e alla risposta non è così inusuale nel tennis. Senza però una valutazione separata delle capacità in questi due ambiti, è difficile capire il rendimento raggiunto dai giocatori e il modo in cui la loro bravura potrebbe modificarsi nel tempo. Questo ci porta alla conclusione più ovvia.

Nel tennis servono valutazioni Elo per il servizio e per la risposta

Dei diversi modi in cui si può pensare di sviluppare le valutazioni Elo per il servizio e per la risposta, le considerazioni che seguono rappresentano per me il punto di partenza più ragionevole per descrivere un possibile approccio.

L’idea di base è quella di utilizzare ogni punto giocato come informazione sull’abilità al servizio del giocatore al servizio e su quella alla risposta del giocatore alla risposta. Ipotizziamo che il giocatore che stiamo valutando, indicizzato con i, abbia appena completato il suo n-esimo punto al servizio.

Servizio

Per aggiornare la valutazione Elo al servizio – Servizio_i,n– si usa la seguente formula:

Servizio_i,n = Servizio_i,n-1 + K ∗ (S_n−Ŝ_n)

dove Servizio_i,n-1 è la valutazione Elo all’avvio del punto, K è la frequenza di apprendimento costante, S_n indica se il giocatore al servizio ha vinto e Ŝ_n è la probabilità di vittoria attesa del giocatore al servizio, calcolata come differenza tra la valutazione del giocatore alla risposta e la valutazione del giocatore al servizio all’avvio del punto.

Risposta

Per la valutazione Elo alla risposta si applicano gli stessi concetti di esito finale e vittoria attesa, solamente dal punto di vista del giocatore alla risposta:

Risposta_i,n = Risposta_i,n-1 + K ∗ (S_n−Ŝ_n).

Nella scelta della costante K è tipico ricercare in un intervallo di valori il livello che meglio si comporta nella previsione dell’esito in questione, nel caso specifico quello dei singoli punti. Ho trovato che K = 2 è un valore con ottimi risultati, mediante il quale un giocatore può guadagnare (o perdere) al più due punti di valutazione nell’esito di qualsiasi punto.

L’ultima decisione riguarda i valori iniziali da considerare per le valutazioni nel momento di osservazione del primo punto di un giocatore. Anche se di solito si usa il valore di 1500, non ha molto senso valutare servizio e risposta allo stesso modo, visto che sappiamo che molti giocatori hanno un servizio migliore della risposta. Invece, assegno una valutazione iniziale al servizio di 1500 e alla risposta di 1400, cui corrisponde in media una vittoria attesa al servizio del 64%.

Un’applicazione: le Finali di stagione

Quale modo migliore di illustrare le valutazioni Elo al servizio e alla risposta se non per i nove partecipanti alle Finali di stagione appena terminate a Londra?

Le valutazioni Elo al servizio

L’immagine 1 mostra la valutazione Elo al servizio per ognuno dei partecipanti alle Finali di stagione fino agli US Open 2017 (nella versione originale, è possibile visualizzare i singoli valori puntando il mouse sul grafico, n.d.t.). Con primo punto ci si riferisce al primo giocato in un torneo del circuito maggiore nella stagione 2017, per ultimo punto s’intende l’ultimo giocato nel quarto e conclusivo Slam dell’anno. Per evidenziare i diversi periodi della stagione, ho utilizzato colori distintivi per i punti giocati negli Slam, nei Master 1000 e negli altri tornei. La linea orizzontale è un’utile riferimento che indica la valutazione Elo al servizio media per il 2017 tra i nove giocatori considerati.

IMMAGINE 1 – Valutazioni Elo al servizio dei partecipanti alle Finali di stagione 2017 fino agli US Open

Il livello complessivo raggiunto in ciascun grafico individua i giocatori più forti al servizio. Si nota ad esempio che sono Rafael Nadal e Roger Federer ad aver avuto un rendimento superiore alla media più a lungo, mentre solo di recente Pablo Carreno Busta ha raggiunto il livello medio di servizio del gruppo.

Le parti in cui il grafico sale e scende denotano le fasi di alta prestazione o di difficoltà del giocatore al servizio. Quello di Alexander Zverev è un caso molto interessante. Durante l’anno è migliorato stabilmente per poi avere un passaggio a vuoto in concomitanza del Cincinnati Masters. Dominic Thiem invece ha avuto il periodo migliore al servizio – forse in modo non sorprendente – durante la stagione della terra battuta.

Gli US Open l’equivalente delle montagne russe

Per alcuni di questi giocatori di vertice gli US Open sono stati l’equivalente delle montagne russe. Quattro delle cinque più ampie variazioni nella bravura al servizio durante il 2017 si sono verificate agli US Open per Nadal, Federer, David Goffin e Marin Cilic: tutti questi giocatori hanno avuto un sbalzo nella valutazione di almeno 57 punti.

Le valutazioni Elo alla risposta

Troviamo dei risultati interessanti anche nei grafici che rappresentano il rendimento alla risposta. Tra questi giocatori, la risposta al servizio di Federer è stata una delle più stabili per tutto l’anno, mentre Carreno Busta è stato tra quelli che si sono più migliorati alla risposta a conclusione degli US Open.

IMMAGINE 2 – Valutazioni Elo alla risposta dei partecipanti alle Finali di stagione 2017 fino agli US Open

Per Nadal e Thiem l’effetto terra rossa è ancora una volta evidente dai punti di massimo raggiunti a metà del grafico. Se da un lato però Thiem ha avuto un calo importante successivo al Roland Garros, Nadal è riuscito a tornare a conclusione degli US Open ai livelli di rendimento alla risposta mostrati al Roland Garros.

Massime valutazioni Elo

Vediamo anche i punti di massimo nelle valutazioni Elo raggiunti durante la stagione. Il “picco” o punto di massimo ottenuto fornisce indicazione dei limiti associati al potenziale di un giocatore. L’immagine 3 mette a confronto i massimi nelle valutazioni Elo al servizio con quelli alla risposta. I giocatori nella parte superiore del grafico hanno avuto un alto potenziale al servizio nel 2017, mentre i giocatori nella zona all’estrema destra hanno avuto un alto potenziale alla risposta.

IMMAGINE 3 – Punti di massimo nelle valutazioni Elo al servizio e alla risposta per la stagione 2017

Dei giocatori che si sono qualificati per le Finali di stagione quello che ha ottenuto la più alta valutazione Elo al servizio nel 2017 è stato Federer (1635), con Nadal poco distante al secondo posto (1626). Nadal ha però ottenuto la più alta valutazione Elo alla risposta (1547), con Thiem arrivato al secondo posto (1525).

Questa prima introduzione alle valutazioni Elo al servizio e alla risposta è testimonianza della possibilità di creare valutazioni più dettagliate del singolo giocatore, grazie a una crescente disponibilità di dati punto per punto delle partite. Sono valutazioni che aiutano a capire non solo quale giocatore sia il probabile favorito, ma anche le motivazioni alla base di determinate previsioni.

Il codice e i dati dell’analisi sono disponibili qui.

Serve and Return Elo Ratings

Benoit Paire e i casi in cui la classifica è troppo alta per un Challenger

di Jeff Sackmann // TennisAbstract

Pubblicato il 20 ottobre 2015 – Traduzione di Edoardo Salvati

Con tre eventi del circuito maggiore a disposizione per questa settimana (Mosca, Stoccolma e Vienna a partire dal 19 ottobre 2015, n.d.t.), Benoit Paire ha ritenuto che valesse la pena non giocarne nemmeno uno. Invece, il numero 23 del mondo è la prima testa di serie del Challenger di Brest, cosa che, con ampio margine, fa di lui il giocatore dalla classifica più alta ad essersi iscritto a un Challenger nel 2015.

I giocatori tra i primi 50 possono decidere di partecipare a un Challenger se ricevono un invito dagli organizzatori del torneo, e i giocatori tra i primi 10 possono decidere di non giocarli proprio. Però, dal 1990, un giocatore tra i primi 50 ha partecipato a un Challenger poco più di 500 volte, vale a dire circa venti all’anno (alcuni di questi giocatori non hanno avuto bisogno di una wild card, poiché l’iscrizione è collegata alla classifica posseduta molte settimane prima del torneo, periodo durante il quale le posizioni dei giocatori salgono o scendono).

Paire mantiene l’anomalia che lo contraddistingue

Molti dei giocatori che ricevono una wild card rientrano in due categorie: o sono quelli che perdono ai primi turni degli Slam o di Master come Indian Wells e Miami, o sono specialisti della terra battuta alla ricerca di altre occasioni per giocare sulla superficie. La decisione di Paire – in linea con il suo stile – non sembra seguire nessuna di queste frequenti modalità.

La tabella riepiloga i giocatori con la classifica più alta ad aver giocato tornei Challenger dal 1990. Nella colonna dei risultati la vittoria del titolo è indicata con “V”, mentre gli altri sono i turni in cui il giocatore ha perso.

Anno  Evento          Giocatore   Class. Turno       
2003  Braunschweig    Schuettler  8      R16     
1991  Johannesburg    Korda       9      SF      
1994  Barcellona      Berasategui 10     V       
1994  Graz            Berasategui 11     R16     
2008  Sunrise         Gonzalez    12     QF      
2004  Lussemburgo     Johansson   12     V       
2011  Prostejov       Youzhny     13     QF      
2008  Prostejov       Berdych     13     QF      
2003  Praga           Schalken    13     V       
2005  Zagabria        Ljubicic    14     V       
2004  Bratislava      Hrbaty      14     F       
2004  Prostejov       Novak       14     QF      
2003  Prostejov       Novak       14     R32     
2007  Dnepropetrovsk  Canas       15     SF      
2002  Prostejov       Novak       15     F       
1998  Segovia         Berasategui 15     QF      
1997  Braunschweig    Mantilla    15     F       
1997  Zagabria        Berasategui 15     V

(Rainer Schuettler e Petr Korda non erano tra i primi 10 un paio di settimane prima dell’inizio dei rispettivi tornei).

Un rapido sguardo potrebbe far pensare che sia Alberto Berasategui ad aver giocato più Challenger da classificato tra i primi 50. In realtà ci va vicino, è infatti alla pari con Jordi Arrese al secondo posto con 12 partecipazioni. Il giocatore che ha giocato sul circuito Challenger più spesso è stato Dominik Hrbaty, con 17 tornei da classificato tra i primi 50 (tra i giocatori in attività è Andreas Seppi a detenere il record, con nove).

Risultati ottenuti in ogni turno

Nonostante tutti quei tentativi, Hrbaty non ha ottenuto particolare successo come classificato di lusso nei Challenger; ne ha vinti infatti solo due e ha raggiunto una finale. Naturalmente, i giocatori tra i primi 50 non hanno garanzia di vincere questi tornei ma, in generale, hanno fatto meglio di Hrbaty, vincendo il 18% dei possibili tornei. La tabella riepiloga i risultati ottenuti da giocatori tra i primi 50 per turno raggiunto.

Risultato      Frequenza  
Titolo         18.1%  
Perso in F     9.3%  
Perso in SF    11.3%  
Perso in QF    17.1%  
Perso in R16   22.0%  
Perso in R32   22.2%

Paire è un giocatore migliore rispetto alla media classifica di questo campione di giocatori, equivalente al 37esimo posto. Considerando anche la superficie favorevole, il mio algoritmo gli assegna un pronostico molto più ottimistico, leggermente superiore a una possibilità su tre di vincere il torneo. Con un titolo Future, uno del circuito maggiore e un paio di vittorie nei Challenger, ci può stare che Paire aggiunga un’altra stranezza alla sua onnicomprensiva stagione (Paire ha poi perso in finale da Ivan Dodig per 7-5 6-1, ma ha vinto il Challenger di Mouilleron Le Captif giocato il mese successivo, n.d.t.).

Rendimento per singolo turno

Ho verificato anche il rendimento per ogni singolo turno di Challenger dei giocatori con classifica tra i primi 50 rispetto a quello degli altri giocatori, raggruppati in funzione della loro classifica.

Class.     P. R32  P. R16  P. QF  P. SF  P. F  Vitt.  
1 - 50     22%     22%     17%    11%    9%    18%  
51 - 100   31%     23%     17%    12%    7%    10%  
101 - 150  39%     23%     16%    10%    5%    6%  
151 - 200  44%     26%     15%    8%     4%    4%  
201 - 250  49%     26%     13%    6%     3%    2%

I classificati tra i primi 50 fanno decisamente meglio del primo o secondo gruppo di giocatori immediatamente inferiore solo in due turni: il primo turno e la finale. Questo può dipendere dal fatto che i giocatori più forti considerino questi tornei come occasione per allenarsi in dinamiche da partita e si accontentino della fiducia sul proprio stato di forma che arriva da una vittoria al primo turno. E forse poi non vogliono stancarsi troppo o rischiare infortuni. Se invece hanno raggiunto la finale, può essere che abbiano particolare interesse in quel torneo e che quindi giochino per vincerlo.

Record di vittorie e sconfitte per turno

Come mostrato in tabella, il record di vittorie e sconfitte per ogni turno è un’altra modalità di analisi.

Class.     R32    R16    QF     SF     F  
1 - 50     77.7%  71.5%  69.2%  70.8%  65.9%  
51 - 100   69.0%  66.9%  62.2%  58.5%  57.1%  
101 - 150  60.7%  61.5%  57.2%  54.9%  53.9%  
151 - 200  55.9%  53.5%  50.7%  49.7%  47.8%  
201 - 250  50.9%  48.3%  46.4%  45.8%  46.8%

Sono un po’ sorpreso che le percentuali per ogni gruppo non scendano più drasticamente con il turno. Va detto che per il gruppo con più giocatori (i classificati dalla posizione 100 alla 250) ci sono molte partite tra giocatori classificati nello stesso gruppo, così che le percentuali si assestano sul 50%. Però, le minime differenze in alcuni di questi risultati confermano quanto possa essere equilibrato il campo partecipanti di un Challenger.

Benoit Paire and Overqualified Challenger Contenders

David Ferrer e la formula anti invecchiamento

di Jeff Sackmann // TennisAbstract

Pubblicato il 7 novembre 2013 – Traduzione di Edoardo Salvati

Nel 2009, all’età di 27 anni, David Ferrer ha terminato la stagione al 17esimo posto della classifica mondiale. Sono stati quindici mesi difficili, caratterizzati da un paio di tornei Master giocati male alla fine del 2008 che lo hanno spinto fuori dai primi 5, fino al 12esimo posto. Una stagione anonima lo ha visto uscire dai primi 20 per alcune settimane. Molti giocatori non migliorano più dalla forma espressa intorno ai 25 anni: se quindi le cose fossero andate come previsto, Ferrer avrebbe continuato a navigare intorno ai primi 30. Così è stato ad esempio per i suoi quasi contemporanei Mikhail Youzhny e Tommy Robredo.

Invece, Ferrer ha continuato a migliorare. Ha concluso il 2010 di nuovo tra i primi 10 al settimo posto. Alla fine del 2011 e del 2012 è arrivato al numero 5. Probabilmente terminerà il 2013 al terzo posto, il più alto in carriera (posizione mantenuta fino alla fine di gennaio 2014. Ferrer è poi rimasto continuativamente tra i primi 10 fino a metà 2016, a 34 anni, n.d.t.). E tutto questo all’età di 31 anni, quando molti giocatori ormai sono più interessati ad allenarsi a golf.

Non ci sono precedenti

Ferrer è solamente il dodicesimo giocatore negli ultimi trent’anni la cui classifica a fine anno è stata migliore di quella dell’anno precedente per quattro volte di fila, a partire dai 24 anni di età. È solo il secondo ad averlo fatto dopo i 27 anni e nessuno ci è riuscito ad un’età più avanzata. L’unico giocatore ad aver ottenuto un risultato simile non può essere preso a paragone: si tratta di Wayne Arthurs, che dal 1998 al 2002 ha migliorato la sua classifica fino alla 52esima posizione di fine anno.

Lo ammetto, sembra più una curiosità da circo che una statistica, ma il tema di fondo che evidenzia riveste particolare importanza. Anche in un’era dominata da stelle con più di trent’anni, il tennis rimane uno sport per giovani. All’età in cui Ferrer ha intrapreso il suo percorso di rinascita, la maggior parte dei giocatori sta svanendo, se non si è già ritirata del tutto.

Tra i primi 300, il massimo è a 23-24 anni

La traiettoria precisa seguita dalla curva di invecchiamento dipende da quali dati si decide di analizzare. Ho fatto due simulazioni: la prima con tutti i giocatori tra i primi 300 dal 1983, la seconda considerando solo i giocatori nati a partire dal 1975. Nel campione più numeroso, il chiaro punto di massimo è a 23-24 anni.

Il giocatore medio mantiene il proprio livello dalla stagione in cui ha ventitré anni a quella in cui ne ha ventiquattro, ma nelle successive il declino è costante. Ad esempio, escludendo completamente i giocatori che sono usciti dai primi 300, il 45% dei giocatori ha migliorato la propria classifica nella stagione del 25esimo anno, il 2% l’ha mantenuta e il 53% ha perso delle posizioni. All’età di 26 anni, le percentuali diventano rispettivamente il 38%, l’1% e il 60%; all’età di 31 anni rispettivamente il 30%, l’1% e il 69%.

Il grafico dell’immagine 1 mostra la percentuale dei giocatori che migliorano e peggiorano in classifica per fascia di età considerata. Anche se esistono giocatori come Ferrer in grado di migliorare la classifica dall’anno precedente al successivo, all’aumentare dell’età diventa sempre più difficile trovarne. Inoltre, non dimentichiamo che i numeri relativi alla conclusione della carriera comprendono giocatori che rientrano da un infortunio, come nel caso di Lleyton Hewitt che negli ultimi due anni ha migliorato la sua classifica.

IMMAGINE 1 – Percentuale dei giocatori la cui classifica migliora o peggiora per fascia di età

Per i nati dal 1975, il massimo è a 24-25 anni

Restringendo l’analisi ai giocatori nati a partire dal 1975, si ottiene un campione ridotto ma tendenzialmente più rappresentativo della situazione attuale. In questo caso, il punto di massimo aumenta di un anno, nella fascia di età 24-25 anni. Nonostante sembri che giocatori come Ferrer, Roger Federer, Radek Stepanek stiano riscrivendo le regole anti invecchiamento, comunque solo il 42% dei ventiseienni migliora la posizione in classifica dalla stagione del 25esimo anno, con il 3% che la mantiene e il 55% che la peggiora.

Un’altra modalità per studiare il declino è quella di calcolare e poi aggregare la grandezza degli spostamenti in classifica. Nel secondo campione, quello dei nati dal 1975 in poi, in media un giocatore perde circa il 2.5% delle posizioni in classifica dalla stagione del venticinquesimo anno a quella del ventiseiesimo anno, e quasi il 19% delle posizioni dall’età di 31 anni a quella di 32. Utilizzando questa metrica, si ottengono due curve di declino, cioè il numero di posizioni perse per fascia di età considerata, rappresentative di ciascun campione, come mostrato nell’immagine 2.

IMMAGINE 2 – Curve rappresentative delle posizioni perse per fascia di età in funzione della grandezza della variazione di classifica per entrambi i campioni

Anche se la tendenza complessiva non è cambiata dagli anni ’80 a oggi, l’andamento in termini di grandezza della variazione di classifica è evidente. Per ogni età nella fase di declino, la curva si è appiattita, rendendo un po’ più probabile che un giocatore come Ferrer possa migliorare verso l’inizio dei trent’anni.

Effetto più severo

Non dimentichiamo però che sono stati esclusi i giocatori usciti dai primi 300 per via dei risultati ottenuti o degli infortuni. Il vero effetto età quindi, per ciascun campione, è più severo di quanto indichino questi numeri. Tuttavia, senza poter costringere questi giocatori a giocare, siamo solo in grado di stimare le dinamiche legate alla loro età da quelle dei giocatori che sono invece rimasti in attività.

Avendo stabilito le percentuali dei giocatori del periodo attuale che migliorano o mantengono la classifica per fascia di età considerata, è possibile calcolare la probabilità che un giocatore riesca a ripetere l’impresa compiuta da Ferrer di migliorare in classifica dalla stagione del 27esimo anno a quella del 31esimo. Per ogni singolo anno, la probabilità è del 40%, con una probabilità complessiva del 2.5%, o una su quaranta. Anche limitando l’estensione del campione ai giocatori tra i primi 300 all’età di 27 anni, sembra sia un numero ragionevole: del resto, Ferrer è un’anomalia rappresentabile almeno con un rapporto di 1 su 40.

Contro natura

Ferrer dovrà affrontare la sua più grande prova nel 2014, per la stagione del 32esimo anno di età. Tra i giocatori del periodo attuale, il 18% dei trentunenni esce dai primi 300 alla fine della stagione del 32esimo anno (nel campione più numeroso a partire dal 1983, la percentuale è del 27%). Di quelli che si mantengono nei primi 300, solo un quarto migliora la posizione, e la variazione media di classifica è abbondantemente negativa (Ferrer ha chiuso il 2014 al decimo posto, perdendo quindi sette posizioni dalla fine del 2013, a conferma di quanto evidenziato dall’analisi, n.d.t.).

Arriverà il momento in cui anche Ferrer dovrà sottostare alle leggi della natura. Che vi siano o meno precedenti, è comunque difficile scommettere contro Ferrer. Ad oggi, la natura non ne ha ancora limitato il rendimento su un campo da tennis.

David Ferrer and Defiance of the Aging Curve

Statistiche emozionali a confronto

di Stephanie Kovalchik // OnTheT

Pubblicato il 10 novembre 2017 – Traduzione di Edoardo Salvati

Con una statistica emozionale a disposizione può essere più facile separare le partite monotone da quelle al cardiopalmo. In questo articolo, metto a confronto aspetti positivi e negativi di due metriche di misurazione dell’emozione generata da una partita.

In un precedente articolo, ho introdotto una statistica emozionale denominata variazione della probabilità cumulata (cumulative probability change o CPC), prendendo ispirazione dalla probabilità aggiunta di vittoria del campionato (championship Win Probability Added o cWPA) utilizzata nella Major League Baseball. La CPC osserva la variazione – da un punto al successivo – della probabilità di vittoria da parte di un giocatore e cumula questi cambiamenti per ottenere il valore emozionale complessivo della partita.

Come ho ricordato, esiste anche l’indice emozionale (IE) creato da Jeff Sackmann di TennisAbstract. A differenza della CPC, l’IE osserva l’importanza media dei punti, con ‘importanza’ qui definita come la variazione attesa nella probabilità di vittoria di un giocatore in funzione della possibilità di vincere o perdere il punto che sta venendo giocato in un determinato momento.

Qual è la differenza tra questi due indici? E quale dei due dovremmo preferire?

Un modo per affrontare la questione è considerare cosa faccia assumere a ciascun indice un valore grande. Dato che la CPC è una somma tra punti, avrà un valore più alto per partite più lunghe e, tra le partite lunghe, un valore ancora più alto in presenza di molteplici cambiamenti di fronte nel favorito alla vittoria finale, determinando variazioni più ampie punto su punto nel livello di vittoria attesa.

L’IE invece è una media e potrebbe quindi assumere valori più alti sia in partite brevi che in quelle lunghe. L’elemento che ne determina l’aumento è la situazione in cui c’è un alto potenziale per capovolgimenti di fronte in molti punti della partita. Il fattore critico in questo caso è il “potenziale”, perché, ponendo attenzione sull’importanza, si sofferma sulla capacità di qualsiasi punto di creare un ampia variazione di andamento della partita, ma non tiene conto se questo si è poi effettivamente verificato.

Un esempio concreto

Un esempio concreto ci permette di apprezzare le differenze in modo più chiaro. L’immagine 1 mostra il grafico del raffronto tra la CPC – sull’asse delle ordinate – e l’IE – sull’asse delle ascisse – per tutte le partite degli US Open 2017 (a esclusione di quelle terminate con un ritiro). Si nota una forte correlazione tra le due metriche, che diventa approssimativamente lineare quando la CPC è portata a 0.4 (come ho fatto nel grafico).

IMMAGINE 1 – Raffronto tra statistiche emozionali per le partite di singolare maschile degli US Open 2017

La correlazione però non è perfetta, vale a dire che ciascun indice restituisce risultati diversi: se dovessimo usarli per stilare una classifica delle partite più emozionanti, avremmo esisti differenti.

Le quattro partite evidenziate in arancione sono quelle in cui la differenza è massima. Sono tutte situazioni in cui la CPC è moderata mentre l’IE è molto alto, al punto che tutte sono rientrate tra le prime 20 partite più eccitanti degli US Open. Per l’IE, la partita tra Borna Coric e Jiri Vesely raggiunge addirittura il terzo posto assoluto!

Da ciascun punteggio, notiamo come tre di queste si siano concluse in tre set e abbiano avuto molteplici break. Si è trattato cioè di partite con punteggio ravvicinato, nelle quali però il vincitore è stato sempre in vantaggio durante i singoli set. Nonostante questo, sono partite con alta importanza media per via del loro equilibrio e della possibilità che si sarebbe potuto assistere a un ribaltamento di fronte in qualsiasi momento, anche se poi questo non è mai accaduto.

Statistiche nella maggior parte dei casi tra loro coerenti

Secondo la CPC nessuna di queste partite rientra tra le prime 20, per via del fatto che non sono state particolarmente lunghe e non si sono verificati grandi passaggi a vuoto del giocatore al comando da comportare un possibile concreto recupero dell’inseguitore.

Si tratta comunque di due statistiche, nella maggior parte dei casi, tra loro coerenti. Se in disaccordo però, la differenza può essere marcata. Dare una preferenza si riduce in definitiva a considerare più eccitante l’aspettativa di un cambiamento di fortuna rispetto alla sua concreta realizzazione.

Il codice e i dati dell’analisi sono disponibili qui.

The Many Sides of Excitement

La quasi neutralità del nastro sul servizio

di Jeff Sackmann // TennisAbstract

Pubblicato l’8 dicembre 2014 – Traduzione di Edoardo Salvati

Raccogliendo statistiche punto per punto delle partite tra professionisti, mi è parso di aver notato una tendenza dopo i servizi che toccano il nastro. Sembra cioè che i giocatori sbaglino molto più frequentemente la prima di servizio dopo aver preso il nastro o che – quando la ripetizione del servizio è in campo – la battuta sia più debole del solito.

Con circa 500 partite nel database del Match Charting Project (ora arrivate a 3467, n.d.t.!), tra cui almeno 200 per entrambi i circuiti, ci sono molti dati a disposizione con cui mettere alla prova questa ipotesi.

Per mia stessa sorpresa, non esiste alcuna siffatta dinamica. Anzi, è più probabile che giocatori e giocatrici, ma soprattutto gli uomini, mettano in campo la prima dopo aver preso il nastro. E quando la ripetizione della prima è in campo, la probabilità di vincere il punto è la stessa di una prima diretta, lasciando intendere che il servizio non sia più debole del solito.

Uomini

Iniziamo con gli uomini. In più di 1100 punti del campione, la prima di servizio ha colpito il nastro. Nel 62.8% delle volte la ripetizione della prima è finita in campo, rispetto al 62% delle volte nei punti in cui la prima non ha toccato il nastro. Quando la prima è entrata, il giocatore al servizio ha vinto il 73.3% dei punti iniziati con un nastro al servizio, rispetto a solo il 70.6% dei punti giocati sulla prima senza il tocco del nastro.

Quindi, dopo il nastro al servizio, ci sono stati più servizi in campo e un rendimento più alto sulla prima di servizio. Quest’ultimo risultato, con una differenza di 2.7 punti percentuali, è particolarmente impressionante.

Delle tendenze che mi aspettavo di osservare, solo una è supportata dai dati. Considerando che prendere il nastro è una questione di millimetri rispetto a una pallina che finisce in rete, sembra logico aspettarsi che più servizi immediatamente dopo un nastro finiscano in rete. E così accade: il 15.7% dei servizi degli uomini finiscono in rete ma, dopo un nastro, la percentuale diventa del 17%.

Donne

Nel caso delle donne, troviamo che l’effetto del dopo nastro è ancora più marcato. Nei punti senza nastro, la prima di servizio è in campo per il 62.8% delle volte. Dopo un nastro sulla prima di servizio, le giocatrici fanno registrare il 65.3% di prime in campo. Considerando che le percentuali sulla prima di servizio sono solitamente confinate in un intervallo relativamente limitato, una differenza di 2.5 punti percentuali è molto significativa.

Analizzando l’esito dei punti giocati sulla prima di servizio, la differenza tra donne e uomini è molto più evidente. Sui punti senza nastro, le giocatrici vincono il 62.8% dei punti con la prima di servizio, mentre dopo un nastro sulla prima, ne vincono solo il 61.8%. Una possibile spiegazione è nell’attitudine più conservativa delle giocatrici dopo aver preso il nastro sulla prima, che le porta a perdere un numero maggiore di quei punti.

Inoltre, le giocatrici sembrano mandare in rete più ripetizioni di prime dopo che la pallina ha toccato il nastro, anche se la differenza non è così marcata come nel caso degli uomini. Sui punti senza nastro, i servizi in rete rappresentano il 16.2% del totale e, dopo il nastro sulla prima, rappresentano il 16.7% della ripetizione della prima di servizio. Tra tutti quelli illustrati, si tratta del numero che più probabilmente non è altro che rumore statistico casuale.

Sorprese e non sorprese

Si scopre che i nastri sul servizio non sono molto indicativi del servizio successivo o del suo esito, e questa non è proprio una sorpresa. Non mi sarei aspettato invece che fosse un po’ più probabile per i professionisti ottenere un rendimento più efficace della media con il servizio successivo al nastro.

The Almost Neutral Let Cord

Teoria e pratica di ogni risposta

di Jeff Sackmann // TennisAbstract

Pubblicato il 19 novembre 2015 – Traduzione di Edoardo Salvati

Alla fine de “La cattedrale di Turing”, George Dyson suggerisce che sebbene i computer non siano sempre in grado di rispondere alle nostre domande in modo utile, sono però capaci di generare uno sbalorditivo e inaudito patrimonio di risposte, anche se le relative domande non sono in realtà mai state formulate.

Pensiamo a un motore di ricerca: ha indicizzato ogni possibile parola e frase, in molti casi ancora in attesa del primo utente che le cerchi.

Cinque milioni di miliardi di diverse interrogazioni

TennisAbstract è la stessa cosa. Utilizzando i menù a sinistra nella pagina di Roger Federer – anche evitando di filtrare per gli scontri diretti, i tornei, i paesi, le statistiche della partita e altri parametri specifici come data e classifica – si possono generare cinque milioni di miliardi di diverse interrogazioni. Sono dodici zeri, e solo per Federer. Stando alle visualizzazioni generate dal sito, ci vorrà ancora un po’ prima che vengano provate tutte quelle combinazioni.

Ogni filtro ha il suo motivo di esistere, un tentativo cioè di rispondere a domande degne di nota relative a un determinato giocatore. La grande maggioranza di quei cinque milioni di miliardi di interrogazioni però fornisce informazioni su quesiti che nessuna persona sana di mente penserebbe di porsi, ad esempio il record di Federer nei tornei Master del 2010 sul cemento dopo aver vinto il primo set 6-1 contro giocatori fuori dai primi 10 (record di 2 vittorie e 0 sconfitte).

Il pericolo di possedere tutte queste risposte risiede nella tentazione di credere che stessimo effettivamente facendo domande o, peggio, che stessimo facendo domande sospettando per tutto il tempo che le risposte sarebbero state di questo tipo.

Il primo istinto è di cercare prova delle nostre consapevolezze

I dati forniti da Hawk-Eye durante le telecronache sono l’esempio perfetto. Quando la grafica mostra la traiettoria di vari servizi o il percorso della pallina per ogni colpo dello scambio, si sta osservando un’enorme mole di dati grezzi, più di quanto la maggior parte di noi sarebbe in grado di intendere se non fossero accompagnati dal familiare sfondo di un campo da tennis. Considerate tutte quelle risposte, il nostro primo istinto è troppo spesso quello di cercare prova di qualcosa di cui siamo già ben consapevoli, che il dritto arrotato di Jack Sock è quello che gli fa vincere più punti o che la seconda di servizio di Rafael Nadal è attaccabile.

È difficile prendere una posizione su questo tipo di affermazioni, soprattutto in presenza di grafiche ad alto contenuto tecnologico che sembrano servire da controprova. Se quelle grafiche rappresentano delle “risposte” (o se lo sono i risultati delle interrogazioni a più filtri su TennisAbstract), lo fanno riferendosi solamente a domande di portata ridotta, che di rado dimostrano le tesi che invece ci convinciamo riescano a dimostrare.

Queste risposte limitate sono semplicemente punti di partenza per domande cariche di significato. Anziché osservare i numeri generati dal rovescio di Novak Djokovic durante una partita dichiarando “Lo sapevo, il suo rovescio lungolinea è il migliore che ci sia in giro” dovremmo renderci conto che stiamo analizzando un piccolo e decontestualizzato insieme di dati, e cogliere l’opportunità di chiedersi, “Il suo rovescio lungolinea è sempre così impressionante?” oppure “Qual è il rendimento del suo rovescio lungolinea rispetto agli altri?” o ancora “Un rovescio lungolinea quanto fa aumentare la probabilità di vincere lo scambio?”

Domande poco significative e conclusioni tratte da pseudo-risposte

Sfortunatamente, la conversazione si interrompe di solito prima che venga formulata una domanda significativa. Anche senza che i dati raccolti dal sistema Hawk-Eye siano pubblicamente condivisi, stiamo iniziando a possedere le informazioni necessarie per fare ricerche su molte di queste domande.

Per quanto siamo propensi a lamentarci della scarsità di analisi statistiche nel tennis, sono troppe le persone che traggono conclusioni dalle pseudo-risposte associate a grafiche scintillanti. Con il più grande numero di dati a disposizione di sempre, è un peccato confondere risposte semplici e limitative per risposte profonde e di ampia portata.

All the Answers

L’ipotesi

Differenza massima intorno al centesimo minuto

Lo scontro tra facce d’angelo e veterani brizzolati

Conclusioni

Condividi:

Titoli

Percentuale di vittorie

Risultati cumulati corretti per la qualità dell’avversario

Molta più variazione

Conclusioni

Condividi:

Contesto e livello di stanchezza

Rendimento in partite più lunghe della media

La classifica è più predittiva del livello di stanchezza

Classificatore bayesiano

Altre analisi e altri modelli

Condividi:

Esternalità negative del sistema a 32

In campo femminile

Dove sta il vero cambiamento

Aumenta la distanza tra aventi e non aventi

Condividi:

Le valutazioni Elo nel tennis

Nel tennis servono valutazioni Elo per il servizio e per la risposta

Servizio

Risposta

Un’applicazione: le Finali di stagione

Le valutazioni Elo al servizio

Gli US Open l’equivalente delle montagne russe

Le valutazioni Elo alla risposta

Massime valutazioni Elo

Condividi:

Paire mantiene l’anomalia che lo contraddistingue

Risultati ottenuti in ogni turno

Rendimento per singolo turno

Record di vittorie e sconfitte per turno

Condividi:

Non ci sono precedenti

Tra i primi 300, il massimo è a 23-24 anni

Per i nati dal 1975, il massimo è a 24-25 anni

Effetto più severo

Contro natura

Condividi:

Qual è la differenza tra questi due indici? E quale dei due dovremmo preferire?

Un esempio concreto

Statistiche nella maggior parte dei casi tra loro coerenti

Condividi:

Uomini

Donne

Sorprese e non sorprese

Condividi:

Cinque milioni di miliardi di diverse interrogazioni

Il primo istinto è di cercare prova delle nostre consapevolezze

Domande poco significative e conclusioni tratte da pseudo-risposte

Condividi: