Rimbalzi imprevedibili, risultati pronosticabili

di Jeff Sackmann // TennisAbstract

Pubblicato il 23 giugno 2017 – Traduzione di Edoardo Salvati

Di questi tempi, la stagione sull’erba è lo sgraziato figliastro del calendario tennistico. Si gioca quasi interamente nei confini di una sola nazione, dura poco meno di un mese e soffre spesso dell’assenza dei giocatori di vertice, che preferiscono prendere una pausa dopo le fatiche del Roland Garros.

Il ridotto numero di tornei sull’erba non agevola nemmeno il lavoro degli analisti. È una superficie che si comporta diversamente dal cemento o dalla terra battuta e ricompensa determinati stili di gioco, quindi è ragionevole ipotizzare che alcuni giocatori saranno particolarmente efficaci (Gilles Muller) o non si troveranno a proprio agio (Stanislas Wawrinka). Con il 90% delle partite del circuito giocato su altre superfici, non c’è a disposizione per molti giocatori una base dati attraverso la quale valutare la loro bravura sull’erba.

Sorprendono risultati alquanto prevedibili sull’erba

Sono rimasto sorpreso quindi nello scoprire che i risultati delle partite sull’erba sono alquanto prevedibili. I pronostici del circuito maschile basati sulle valutazioni Elo sono accurati quasi quanto quelli sul cemento e considerabilmente più efficaci di quelli sulla terra. Anche utilizzando previsioni “pure” per superficie, vale a dire prevedere gli esiti di una partita con valutazioni che si affidano esclusivamente su risultati derivanti da quella superficie, le previsioni per le partite sull’erba sono leggermente migliori di quelle sulla terra.

Ho considerato un insieme di circa 50.000 partite del circuito maschile dal 2000 ai tornei di Halle e del Queen’s Club della settimana scorsa, eliminando ritiri pre e durante la partita. Come termine di riferimento, ho utilizzato la classifica ufficiale dell’ATP per fare pronostici per ciascuna delle partite del campione. Nel 66.6% dei casi si è rivelato uno strumento corretto, e l’indice Brier per la classifica ATP nel periodo considerato è .210 (l’indice Brier misura l’accuratezza di un insieme di pronostici attraverso la media dell’errore quadratico di ogni singolo pronostico; più basso è il valore dell’indice, maggiore la qualità delle previsioni. Per fare un esempio di indici Brier specifici del tennis, nel 2016 la classifica ATP ha ottenuto un punteggio di .208 mentre le quote degli allibratori, complessivamente, hanno avuto un Brier di .189).

Proviamo ora a inserire la variabile superficie e confrontare il rendimento della classifica (ATP), del sistema Elo e di Elo specifico per superficie (sElo). Nella tabella, la colonna “F%” rappresenta la percentuale di partite vinte dal giocatore considerato favorito dal sistema utilizzato e “Br” è l’indice Brier.

Superficie  ATP F%  ATP Br  Elo F%  Elo Br  sElo F%  sElo Br  
Cemento     67.3%   0.207   68.0%   0.205   68.5%    0.202  
Terra       66.1%   0.211   67.1%   0.211   67.0%    0.213  
Erba        66.0%   0.215   67.6%   0.207   68.5%    0.207

Al meglio sul cemento e divergenza tra terra ed erba

I tre i sistemi di valutazione funzionano al meglio per le partite sul cemento. C’è una ragione precisa per questo: la classifica ufficiale ATP e Elo complessivo attribuiscono maggiore peso ai risultati sul cemento che a quelli sulla terra o sull’erba. Elo specifico per superficie funziona al meglio sul cemento per un motivo simile: più dati a disposizione.

Possiamo già vedere però la divergenza di valutazione tra terra ed erba, specialmente con Elo specifico per superficie. Siamo in grado di spiegare la migliore prestazione di Elo complessivo per l’erba con la presunta vicinanza di gioco tra cemento e erba, cioè se un giocatore eccelle sul primo probabilmente si trova bene anche sulla seconda, anche se magari è un disastro sulla terra. Questo però non spiega come mai sElo faccia meglio sull’erba che sulla terra. Le partite del circuito sulla terra sono più del triplo (3.3) rispetto a quelle sull’erba quindi praticamente per tutti i giocatori ci saranno più risultati disponibili sulla terra che sull’erba, anche tenendo conto delle loro scelte in funzione della preferenza di superficie.

Possiamo migliorare ulteriormente questi pronostici mischiando le valutazioni specifiche per superficie con le valutazioni complessive. Dopo aver provato diverse combinazioni, l’equa ponderazione tra Elo complessivo e sElo rappresenta il mix adatto per il risultato migliore (le differenze tra, ad esempio, 60/40 e 50/50 sono estremamente ridotte, quindi anche se 60/40 è leggermente meglio, preferisco la semplicità della suddivisione equa). La tabella riepiloga i risultati per gli sElo ponderati delle tre superfici.

Superficie  ATP F%   ATP Br  
Cemento     68.6%    0.202  
Terra       68.0%    0.207  
Erba        69.8%    0.196

L’erba è la superficie più pronosticabile di quelle usate nei tornei Slam!

Anche utilizzando una media ponderata di Elo e sElo, i pronostici per l’erba fanno affidamento su meno dati di quelli per altre superfici: si parla di meno di un terzo dei risultati utili per le previsioni su terra e meno di un quinto per quelle su cemento. Anzi, possiamo fare altrettanto bene – e forse un po’ meglio – con anche meno dati: una ponderazione equa 50/50 dei risultati su erba e di quelli su cemento è parimenti accurata del 50/50 di Elo specifico per erba e Elo complessivo.

A prescindere dalla formula esatta, sorprende la possibilità di fare previsioni così accurate per le partite sull’erba con dati così limitati. Anche se un terzo dei tornei del circuito fossero giocati sull’erba, comunque non sarei rimasto stupito se i pronostici per le partite sull’erba fossero risultati i più difficili da fare. Più una superficie favorisce il giocatore al servizio – e l’erba è quella in cui è più complicato ottenere un break – più equilibrato tende a essere il punteggio, lasciando spazio a maggiore casualità nel risultato finale. Nonostante questa alterazione di fondo, siamo in grado di pronosticare i vincitori sull’erba con efficacia equivalente alle altre più diffuse superfici.

Contesto inalterato

Questa è la mia teoria: anche in presenza di pochi tornei sull’erba, il contesto in cui vengono giocati è abbastanza inalterato. Si è sul livello del mare, i campi sono preparati seguendo le indicazioni degli esperti di Wimbledon, e la pioggia è sempre una minaccia incombente, tenendo lontano il sole. Proviamo a paragonare questa omogeneità con la varietà dei tornei sul cemento e sulla terra. I campi in cemento e in altura di Bogotà non hanno nulla a che vedere con quelli molto più lenti dell’Indian Wells Masters. La verde “terra” (americana) di Houston è accomunata ai rossi mattoni polverizzati del Roland Garros solo dal nome. Mentre i campi in erba sono praticamente tutti uguali, quelli in terra sono diversi uno dall’altro quasi tanto quanto lo sono dalle altre superfici.

Uniformità di superficie

È ragionevole che valutazioni basate sull’uniformità di una superficie siano più precise di quelle derivanti da un’ampia varietà di superfici, ed è quindi rassicurante che la limitazione nei dati a disposizione non impedisca a questo vantaggio di emergere. Inoltre, questa ricerca suggerisce un’altra strada per pronostici più accurati: accostare partite sul cemento e sulla terra sulla base di una definizione più puntuale di velocità di una superficie. Se il 10% di partite del circuito è sufficiente per fare previsioni affidabili sull’erba, lo stesso potrebbe valere per il terzo dei campi in terra più lenti. È quasi sempre meglio avere più dati, ma qualche volta dati più mirati sono meglio dell’abbondanza di dati.

Unpredictable Bounces, Predictable Results