La fortuna del sorteggio: Roland Garros 2019 (uomini)

di Chapel Heel // HiddenGameOfTennis

Pubblicato il 3 giugno 2019 – Traduzione di Edoardo Salvati

Come d’abitudine per gli Slam, ho eseguito una simulazione (con la mia variante Elo) di 100.000 configurazioni del tabellone principale, utilizzando lo stesso metodo che assegna ai giocatori la loro posizione in quello ufficiale. L’ho poi confrontata con la previsione per il torneo su base Elo rispetto al tabellone effettivo.

La trasferta al Roland Garros mi ha impedito di procedere prima con quest’analisi. Mi dispiace riuscire a farlo solo a pochi giorni dalla conclusione del torneo.

Come per le donne, anche in questo caso viene messa a confronto la previsione effettiva del tabellone con i risultati dalle simulazioni di rimescolamento, in modo da avere alcune indicazioni sull’accessibilità del tabellone effettivo rispetto alle altre configurazioni. Tonalità di rosso (e arancione) evidenziano la sfortuna del giocatore. Al contrario, tonalità di verde rappresentano la fortuna ricevuta nel tabellone effettivo, in riferimento a un particolare turno. Il giallo simboleggia neutralità, e si può di fatto ignorare qualsiasi valore superiore o inferiore all’1%.

Si è detto molto, a tabellone completo, del facile cammino di Rafael Nadal verso il dodicesimo titolo, ma come al solito si è anche esagerato. La differenza tra quella effettiva e centomila altre possibili versioni rientra nel margine di errore. In realtà è più semplice il percorso di Novak Djokovic, sempre relativamente ad altri scenari, anche se non in modo significativo.

Mi sorprende invece l’esito legato a Roger Federer che, tra i giocatori di vertice, è quello a subire la sorte peggiore. Se si riferisse alla sola finale e alle possibilità di vittoria lo capirei, perché dopotutto si è trovato dal lato di Nadal. E questo è di per sé peggiorativo per chiunque aspiri al trofeo. Ma il suo tabellone è leggermente più difficile già per arrivare ai quarti e alla semifinale. Temo che dipenda in larga parte dalla presenza di Matteo Berrettini e Diego Schwartzman, entrambi con solide valutazioni Elo specifiche per la terra, anche se in pochi li considererebbero una minaccia reale (hanno perso infatti al secondo turno, n.d.t.)

Dominano le prime cinque teste di serie

Ammetto di aver pensato che il tabellone di Dominic Thiem fosse il più complicato tra le prime quattro teste di serie. In questa simulazione ha invece il migliore, in parte perché ha evitato il quarto di Nadal. E questo illustra (secondo me) uno dei problemi attuali del tennis maschile: è difficile trovare un giocatore qualsiasi fuori dalle prime cinque teste di serie che abbia anche la minima possibilità di vincere uno Slam. Nelle mie previsioni con valutazioni Elo, i primi cinque raggiungono in aggregato l’84.4% di probabilità di vittoria. È per questo che, onestamente, il loro cammino sembra sempre facile quando si guarda il tabellone da vicino.

Luck of the Draw: Roland Garros 2019 (Men)

La fortuna del sorteggio: Roland Garros 2019 (donne)

di Chapel Heel // HiddenGameOfTennis

Pubblicato il 3 giugno 2019 – Traduzione di Edoardo Salvati

Negli ultimi due anni, ho eseguito simulazioni di variazioni del tabellone principale per gli Slam maschili per verificare quanto un giocatore sia stato fortunato o sfortunato nel tabellone effettivo, rispetto ad altre 100.000 possibili configurazioni dello stesso. È la prima volta che applico l‘analisi al tabellone femminile.

Viene messa a confronto la previsione effettiva del tabellone con i risultati dalle simulazioni di rimescolamento, in modo da avere alcune indicazioni sull’accessibilità del tabellone effettivo rispetto alle altre configurazioni. Tonalità di rosso (e arancione) evidenziano la sfortuna della giocatrice. Al contrario, tonalità di verde rappresentano la fortuna ricevuta nel tabellone effettivo, in riferimento a un particolare turno. Il giallo simboleggia neutralità, e si può di fatto ignorare qualsiasi valore superiore o inferiore all’1%.

Osaka e Serena, sorte opposta

A differenza del tabellone maschile, nel quale cinque giocatori hanno più dell’84% di probabilità aggregata di vittoria finale, in campo femminile la situazione è molto più aperta.

Mi interessava vedere due aspetti. Un rimescolamento del tabellone avrebbe mostrato maggiore variazione tra quelli effettivi e le nuove configurazioni? Non avendo le giocatrici di “vertice” una vittoria attesa così alta in termini di probabilità, si possono esporre più facilmente a una sconfitta a sorpresa, o a un percorso più semplice.

Viceversa, ci sarebbe stata molta meno variazione? In presenza di maggiore equiparazione tra le giocatrici, il rimescolamento del tabellone ha conseguenze minori, con peso inferiore legato al nome dell’avversaria.

A quanto pare è più probabile la prima ipotesi, ma certamente non siamo nel caos totale. L’incidenza è all’incirca sullo stesso numero di giocatrici di quanto emerso dal confronto per il tabellone maschile, anche se in questo caso la variazione percentuale è più marcata.

È andata peggio a Naomi Osaka (e anche Elina Svitolina non è stata fortunata), mentre Serena Williams ha avuto il tabellone più facile (presumendo però di avere una Williams in forma e non una Williams che non ha avuto grandi possibilità di giocare a livello competitivo quest’anno). In ogni caso, tutte e tre hanno perso prima dei quarti di finale.

Luck of the Draw: Roland Garros 2019 (Women)

Una storia dei tabelloni femminili al Roland Garros in cui chiunque poteva vincere

di Jeff Sackmann // TennisAbstract

Pubblicato il 21 maggio 2019 – Traduzione di Edoardo Salvati

Negli ultimi anni, si è parlato molto della “profondità” del tennis femminile. Dopo che al termine degli Australian Open 2017 Serena Williams è andata in maternità, nessuna giocatrice è emersa come forza dominante del circuito. Nell’episodio numero 62 del Podcast di Tennis Abstract, ho affermato che l’imminente edizione del Roland Garros dà la sensazione di essere aperta a qualsiasi vincitrice, specialmente dopo aver visto la finale degli Internazionali d’Italia tra Karolina Pliskova e Johanna Konta, due giocatrici dalla destrezza relativa sulla terra battuta.

Alla fine della registrazione, ho generato delle previsioni per il torneo con l’utilizzo delle valutazioni Elo specifiche per superficie, su un campo partecipanti costituito dalle prime 128 della classifica mondiale (il tabellone effettivo sarà diverso, ma le qualificate e le wild card tipicamente non hanno grande influenza sul risultato finale).

La campionessa in carica Simona Halep è la prima favorita, con una probabilità del 22.2% di difendere il titolo. Segue Petra Kvitova, appena sopra al 10%, con Kiki Bertens al terzo posto e poco sotto la doppia cifra. Ci sono poi altre due giocatrici con il 5% di probabilità di vittoria, cinque con almeno il 3% e altre nove con l’1%. Si tratta di un totale di 19 giocatrici [1] con almeno 1 probabilità su 100, tra cui due non certamente favorite come Anett Kontaveit e Petra Martic.

Maria Sakkari, vincitrice del torneo di Rabat e semifinalista agli Internazionali d’Italia, è al 20esimo posto, a un passo dall’1%. Non c’è molta separazione tra le giocatrici in cima all’elenco, e quando il sorteggio avrà assegnato fortune e sfortune l’ordine sarà senza dubbio un altro.

L’impressione è che possa vincere chiunque

Questo è ancor più vero se lo si paragona al Roland Garros di trent’anni fa, con una Steffi Graf inarrivabile al 68% di probabilità di vittoria, e tra le sole cinque giocatrici con più dell’1% di probabilità (le divinità del tennis hanno preso in giro questa previsione retrospettiva, perché Arantxa Sanchez Vicario portò la sua probabilità dell’1.5% a inizio torneo fino alla vittoria).

Il nutrito gruppo delle diciannove con almeno l’1% di probabilità è in effetti uno sviluppo molto recente. Nei precedenti trent’anni, le giocatrici con almeno l’1% di probabilità di vittoria sono state in media 11.5 e solo in tre occasioni si è arrivati a 19, due delle quali nel 2017 e 2018 (l’altra è stata nel 2010, con l’incredibile numero di 23 giocatrici con almeno l’1% e nessuna di loro con più del 13% di probabilità di vittoria). Non più tardi del 2004, solo 8 giocatrici potevano manifestare tanto ottimismo prima dell’avvio del torneo.

La seconda soglia di favorite, giocatrici con una probabilità di vittoria non superiore all’1%, è l’aspetto più caratteristico dei recenti tabelloni del Roland Garros, e rafforza la convinzione che di questi tempi il tennis femminile sia particolarmente equilibrato. Se Kontaveit, testa di serie 17, non sembra una possibile vincitrice, è però senza dubbio una candidata più concreta di quanto lo fossero 15 anni fa giocatrici con una testa di serie simile.

È cambiato il dominio al vertice

Restringendo l’attenzione a soglie di probabilità più alte, come il 3% o il 5%, l’era attuale si distingue di meno. Dal 1989 al 2018, il classico tabellone aveva 6.5 giocatrici con almeno il 3% di probabilità e 4.8 giocatrici con almeno il 5%. Quello del 2019 include 10 giocatrici nella prima soglia e 5 – all’incirca la media storica – nella seconda. Solo l’esercito delle giocatrici da 1% separa il tabellone di quest’anno da, ad esempio, il 1997, quando in nove avevano almeno il 3% di probabilità, di cui sette al 5% o più.

È cambiato invece il predominio delle giocatrici in cima all’elenco. Negli ultimi tre decenni, in media la favorita arrivava a Parigi con una probabilità su tre di vittoria. Nelle tre edizioni da primatista, Halep non è andata oltre il 23%. La tabella mostra le dieci favorite “più deboli” per le edizioni dal 1989 al 2019.

Anno  Favorita       Probabilità     
2010  V. Williams    12.9%     
2018  Halep          19.1%  *  
2011  Wozniacki      22.0%     
2019  Halep          22.2%     
2017  Halep          23.0%     
2006  Henin          23.3%  *  
2005  Henin          23.4%  *  
2012  Azarenka       24.1%     
2008  Sharapova      24.5%     
2009  Safina         24.7%

* Vittoria del torneo

Tradizionalmente, il Roland Garros fa pensare che il campo partecipanti femminile sia molto equilibrato, anche quando in effetti non è stato così. La favorita ha poi vinto solo 8 delle ultime 30 edizioni, una frequenza del 27% che quasi potrebbe rientrare nel precedente elenco. Sanchez Vicario ha vinto due volte avendo meno del 2% di probabilità. Il titolo di Anastasia Myskina nel 2004 aveva una probabilità dello 0.8%, mentre nel 2017 Jelena Ostapenko era la 27esima favorita, dietro Mona BarthelKaterina Siniakova, con una probabilità dello 0.4%.

Le sorprese quindi sono sempre state parte integrante di Parigi. In assenza di una giocatrice dominante in cima al tabellone e con il numero “1” vicino al nome, le altre si sono finalmente avvicinate. Nessuna ha una probabilità così convincente da pensare di avere già la vittoria in tasca, e un’impressionante pletora di contendenti ha ragione di sperare in due settimane di magia.

Note:

[1] L’elenco completo delle “favorite” ordinate per probabilità di vittoria: Halep, Kvitova, Bertens, Pliskova, Ashleigh BartyAngelique KerberElina SvitolinaCaroline WozniackiGarbine MuguruzaNaomi OsakaSloane StephensMarketa VondrousovaMadison Keys, Konta, Serena, Kontaveit, Caroline GarciaVictoria Azarenka e Martic.

A History of Wide-Open French Open Women’s Draws

Cosa possono dire le statistiche della partita sugli stili di gioco?

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 5 aprile 2019 – Traduzione di Edoardo Salvati

La conclusione più ovvia di un paio di miei recenti articoli sulle ripercussioni degli scontri diretti è probabilmente nota a tutti: possono esistere degli effetti, ma buona fortuna nel trovarli. Con campioni di dati così ridotti per la maggior parte degli scontri diretti, serve un modo per raggruppare giocatori “simili” tra loro. In questo articolo, cerco di capire se sia possibile creare categorie di giocatori in funzione dello stile di gioco, utilizzando statistiche di base della partita.

Quando Roger Federer ha giocato contro John Isner nella finale del Miami Masters 2019, in molti sono rimasti sorpresi nel ricordare che era la loro prima partita del circuito maggiore dal 2015. Tuttavia, che vi siano partite poco frequenti tra i giocatori di vertice è più una regola che un’eccezione, uno degli aspetti negativi della struttura del tennis professionistico (anche se, opinione personale, non sono coì attratta dal pensiero di avere Isner così spesso in finale).

Scontri diretti sporadici sono anche uno dei crucci degli analisti di tennis. Siamo spesso allettati dall’idea che una partita tra due specifici giocatori possa dare un impulso extra ai nostri modelli di rendimento, per poi ritrovarci in difficoltà ad applicare un metodo affidabile per misurare effetti così elusivi.

Raggruppamento per somiglianza

“Guadagnare forza prendendo a prestito” è una nozione diffusa in statistica e fa riferimento al concetto che si possa acquisire maggiore conoscenza di un certo tipo di informazione se la si osserva tramite informazioni a essa affini. È un po’ come quando, in presenza di membri della stessa famiglia, ci si rende conto che sono quel naso o quel mento a renderli distintivi rispetto alle altre persone. Raggruppare dati simili in statistica può avere il medesimo fine, aiutare cioè a capire più chiaramente quali sono gli elementi caratteristici di una fattispecie oggetto di analisi. Le ripercussioni degli scontri diretti hanno bisogno esattamente di questo tipo di soluzione.

Se raggruppare è davvero una questione di mettere insieme giocatori tra loro simili, dobbiamo avere a disposizione una modalità di misurazione della somiglianza. Cosa vuol dire che due giocatori sono simili? Beh, può avere molti significati. Ma se lo scopo è comprendere le ripercussioni degli scontri diretti, allora serve concentrare l’attenzione su quei giocatori con uno stile di gioco affine. La difficoltà risiede però nell’incertezza della quantificazione dello stile. Come per molte delle tematiche più interessanti sul rendimento nel tennis, anche dello stile è nota l’esistenza ma non il modo in cui misurarlo.

Idealmente, lo stile dovrebbe considerare la selezione di colpi di un giocatore e l’esito di ciascun tipo di colpo. Pur trattandosi di aspetti basilari, non è facile analizzarli con i dati pubblicamente disponibili, almeno non con continuità per la maggior parte dei giocatori di vertice.

Il contributo delle statistiche di base

Statistiche di base come la percentuale di prime in campo o i punti vinti alla risposta, etc, sono invece le informazioni più dettagliate che si riescono a ottenere per moltissime partite dei professionisti. A prima vista, possono sembrare di utilizzo limitato nella definizione di uno stile. Del resto, sono più direttamente collegate alla bravura relativa di un giocatore rispetto all’avversario in quello specifico giorno. Sarebbe però eccessivamente affrettato ignorare il loro contributo nella categorizzazione dello stile? Penso di sì. In fondo, contengono alcuni parametri, gli ace o doppi falli ad esempio, che sono il prodotto della tecnica al servizio e della propensione al rischio di un giocatore, e di cui chi è al servizio dovrebbe essere in controllo. Anche la durata di una partita è un’altra statistica che, in teoria, ha un collegamento diretto con la tendenza di un giocatore a rimanere nello scambio.

Come esperimento di partenza, ho verificato cosa si possa ricavare, in termini di somiglianza, dalla frequenza di ace e dai minuti giocati per singolo punto. Visto che siamo interessati al comportamento di un giocatore a prescindere dall’avversario, ho utilizzato un modello combinato per calcolare una frequenza media per ciascun giocatore su ogni superficie per le partite giocate dal 2017. Ho delimitato il campione a quei giocatori con almeno due apparizioni negli Slam, così da avere un gruppo che ha affrontato avversari simili in quell’intervallo temporale.

L’immagine 1 mostra i risultati per i giocatori del circuito maggiore. Si fa immediatamente notare l’assenza di una forte correlazione tra le ripercussioni di ace e minuti di gioco. Ero convinta che i giocatori con una media di ace per punti serviti più alta giocassero anche molto rapidamente. Per quanto sia questa la tendenza generale, la relazione è decisamente modesta.

IMMAGINE 1 – Correlazione tra ripercussioni di ace e minuti di gioco

Gli effetti più estremi

Ho evidenziato il 2% degli effetti più estremi. Nella parte in cui vi è un’alta frequenza di ace, emergono i soliti sospetti: Isner, Reilly Opelka e Ivo Karlovic, ad esempio. È una conferma che le ripercussioni generate dalla frequenza di ace sembrano funzionare più in termini di potenza complessiva che di semplice efficacia complessiva del servizio nel far vincere punti. Così succede a Rafael Nadal, che ha una frequenza di ace più bassa della media nonostante sia uno dei più bravi a vincere punti al servizio. Yoshihito Nishioka è all’estremo opposto. Con un’altezza di 174 cm, Nishioka è molto più basso del giocatore medio di uno Slam, e questo potrebbe essere il motivo della sua posizione nel grafico.

Per quanto riguarda le ripercussioni generate dai minuti giocati, è degna di nota la presenza di Nadal, Andy Murray e Novak Djokovic tra i giocatori con la maggiore durata per punto. È in linea con la loro caratterizzazione di fondisti dello scambio. Dal lato opposto, giocatori con un ritmo insolitamente veloce ma non tra i più potenti al servizio includono Dustin Brown e Florian Mayer. Potrebbero essere esempi di giocatori con uno stile aggressivo ma senza un servizio dominante.

Sei gruppi distinti

I casi estremi mettono in evidenza alcuni giocatori che sono più simili a determinati altri. Si può affrontare la questione procedendo per raggruppamento. Iniziamo semplicemente considerando cosa emergerebbe con un raggruppamento tramite algoritmo k-means sulle ripercussioni da scontri diretti sul cemento. La tendenza dell’errore all’interno del gruppo indica che una suddivisione in sei gruppi è il metodo meno complicato per organizzare i dati al fine di avvicinarsi alla varianza infragruppo più ridotta possibile.

IMMAGINE 2 – Raggruppamento tramite algoritmo k-means

L’immagine 3 mostra invece come quei gruppi si rapporterebbero alle ripercussioni generate dalla frequenza di ace e dai minuti giocati. Si vedono gruppi ben distinti che potremmo facilmente etichettare in modo separato, per la loro specifica combinazione di servizio intimidatorio e ritmo di gioco intenso.

IMMAGINE 3 – Rapporto tra raggruppamenti e ripercussioni di frequenza ace e minuti giocati

Conclusioni

Due attributi non sono sufficienti a esprimere tutte le sfaccettature di stile desiderate. È solo un piccolo esperimento, ma con alto potenziale. Siamo in grado di poter classificare tutte le declinazioni di stile solo dalle statistiche di base di una partita? Probabilmente no. Siamo in grado di classificare declinazioni di stile principali? Forse. O meglio, sono più convinta che ci sia possibilità di quanto non lo fossi prima di arrivare a questi risultati. Nella stima delle ripercussioni da scontri diretti, c’è ancora speranza per una metodologia fondata sullo stile.

What Can Match Stats Tell Us About Playing Styles?

Le ripercussioni degli scontri diretti in campo femminile

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 22 marzo 2019 – Traduzione di Edoardo Salvati

Se avete sempre pensato che la rivalità a senso unico tra Serena Williams e Maria Sharapova non ha eguali, beh..è così! Nella storia recente del tennis femminile però, non è quella dalle ripercussioni maggiori.

In un precedente articolo, ho analizzato una metodologia basata su un modello combinato per stimare risultati a sorpresa degli scontri diretti. L’obiettivo era individuare quali tra questi specifici accoppiamenti di giocatori aveva prodotto l’esito più contrario alle attese sulla base della bravura complessiva dei giocatori, su ciascuna superficie e alla data della partita.

Voglio ora applicare lo stesso procedimento per le giocatrici, concentrandomi sulle partite giocate dal 2010 a oggi in tornei almeno di categoria $125K. L’immagine 1 mostra le cento maggiori ripercussioni degli scontri diretti nel periodo considerato del campione di partite femminili. La giocatrice a beneficiare dell’effetto generato dagli scontri diretti è il primo dei due nomi che compaiono nell’asse delle ordinate. Bolle più grandi riflettono l’accuratezza della stima (maggiore la grandezza, maggiore la certezza che l’effetto sia concreto).

Emerge immediatamente l’accoppiamento al secondo posto, quello appunto del dominio di Williams contro Sharapova, una rivalità ormai notoriamente così a senso unico da richiedere una squalifica per doping e una sensazionalistica autobiografia per ravvivarla. Williams ha vinto 19 delle 21 partite che hanno giocato. Tra il 2010 e l’ultima partita completa nel 2016, sono state 14 le vittorie consecutive di Williams.

Come mai questa rivalità non occupa la prima posizione, visti i numeri?

La ragione è da cercare negli elementi che determinano sorpresa nel risultato di uno scontro diretto. È semplicemente il record di vittorie e sconfitte? No, perché se questo parametro fosse sufficiente, potremmo essere fuorviati dal concludere che nessuno si aspettava di vedere un record di 13-1 tra Roger Federer e Ivo Karlovic. La sorpresa quindi deve tenere conto delle attese di risultato che precedono la partita e, per rientrare nell’elenco degli scontri diretti più straordinari, dobbiamo essere in presenza di risultati che vanno ripetutamente contro le attese.

Questo rende la rivalità tra Williams e Sharapova interessante perché, almeno in termini di valutazione Elo specifica per superficie, ci si attendeva da Williams che vincesse tutte le ultime 14 partite (dal 2010 in avanti), per la maggior parte delle quali la probabilità di vittoria oscillava tra il 55 e il 75%. L’ultima sorprendente vittoria di Williams è stata la semifinale a Wimbledon 2015, mentre le due più sorprendenti sono state sulla terra battuta di Madrid consecutivamente nel 2012 e 2013.

Se interamente considerate, le probabilità di vittoria di Williams in queste 14 partite avrebbero dovuto dirci che 9 vittorie sarebbero state perfettamente in linea con le attese. Ma, vincendole tutte e quattordici, l’assoluto domino di Williams ha fatto sembrare le già rosee previsioni di allora eccessivamente pessimistiche.

IMMAGINE 1 – Cento maggiori ripercussioni degli scontri diretti almeno livello $125K

Cibulkova, Kuznetsova e il caso di Radwanska

Il primo posto è occupato da due giocatrici a cui nemmeno i più patiti di tennis avrebbero pensato. Si tratta dello scontro diretto tra Dominika Cibulkova e Svetlana Kuznetsova. Nelle sei volte in cui hanno giocato tra il 2010 e il 2016, Kuznetsova era sempre la favorita, e negli anni 2010 e 2011 anche con ampio margine. Nonostante questo, Cibulkova è riuscita a essere vittoriosa ogni volta. Visto che le valutazioni standard hanno sempre sbagliato, sembra essere questa una prova schiacciante dell’esistenza di un contrasto di stili di qualche tipo.

Si fa notare la ricorrente presenza di diverse giocatrici tra le prime 10 più importanti ripercussioni degli scontri diretti. Kuznetsova è anche al terzo posto, nell’accoppiamento con Agnieszka Radwanska, in questo caso però i risultati sono in suo favore. Sam Stosur, Julia Georges, Ana Ivanovic e Caroline Wozniacki compaiono due volte, ed è solo Goerges a essere stata considerata favorita in entrambe le occasioni.

Nell’elenco delle prime 100 ripercussioni, ci sono molte giocatrici il cui stile di gioco sembra prestarsi a entrare in conflitto con quello delle colleghe, Radwanska fra tutte, apparendo in ben 14 diversi scontri diretti. Ora non più in attività, Radwanska era nota per un possedere una grande varietà di colpi, una versatilità che sembra abbia reso molto più complicato pronosticare i suoi risultati attraverso valutazioni standard.

Seppur nessuna delle altre si avvicina alla frequenza di Radwanska negli scontri diretti, ci sono alcuni nomi che ricorrono con continuità. Stosur ed Ekaterina Makarova compaiono otto volte, Anastasia Pavlyuchenkova sette e Petra Kvitova sei. Come riscontrato per gli uomini, la correzione per le ripercussioni degli scontri diretti non incide sul rendimento predittivo all’interno di una stagione completa.

Due ragioni di non incidenza sul rendimento predittivo

La ragione è duplice. Da un lato, la rarità di accoppiamenti con uno storico composto da molti scontri diretti. Nel 2018, solo una partita su sei a livello di tornei International o superiore ha coinvolto giocatrici che avevano già giocato almeno altre due volte dal 2010.

Dall’altro lato, la maggior parte dei risultati degli scontri diretti ha una buona concordanza con la bravura complessiva di entrambe le giocatrici. Delle più di 4000 ripercussioni degli scontri diretti stimate nel campione di partite femminili, solo il 30% ha avuto un effetto che indicherebbe di uno spostamento della previsione standard superiore al 10%.

Per quanto l’impatto totale della correzione degli scontri diretti non è così rimarchevole, è comunque interessante vedere come l’accostamento di specifiche giocatrici e di loro avversarie potrebbe avere incidenza sulle attese in merito al risultato finale. Prendendo a riferimento il 2018, verifichiamo il miglioramento predittivo con la correzione degli scontri diretti per le partite giocate durante la stagione.

I risultati più precisi si sarebbero ottenuti con Elina Svitolina, considerando quanto ha giocato nel 2018 e le ripercussioni degli scontri diretti cui si è trovata di fronte. Alcuni dei miglioramenti predittivi di maggiore entità sarebbero arrivati dalle partite contro Wozniaki, Angelique Kerber e Darya Kasatkina. La tabella mostra che, in totale, quelle correzioni avrebbero restituito circa sette previsioni più corrette rispetto al modello transitivo standard.

Anche per Simona Halep le previsioni avrebbero ricevuto un simile incremento di precisione, che sarebbe arrivato nel suo caso contro avversarie come Naomi Osaka, Angelique Kerber e Caroline Garcia. Ma ci sarebbero state anche correzioni in negativo contro Wozniacki e Svitolina, contro le quali Halep storicamente non ha scontri diretti favorevoli (2 vittorie e 5 sconfitte contro la prima e 3 vittorie e 4 sconfitte contro la seconda, n.d.t.).

Conclusioni

Miglioramenti predittivi nel corso di una stagione diminuiscono sensibilmente dopo queste giocatrici. E questo rinforza la conclusione che dovremmo essere scettici di fronte a interpretazioni assolute degli scontri diretti come forma più rappresentativa del tipo di rendimento che una giocatrice avrà nei confronti di una determinata avversaria.

La realtà è che la sequenza di scontri diretti tra giocatrici di bravura analoga è un indicatore molto più affidabile. A parte qualche scontro diretto, tutti gli altri sono costituiti da un numero di partite eccessivamente ridotto e sparso nel tempo da fornire sostanziale assistenza nello sviscerare le peculiarità di uno specifico accoppiamento giocatrice-avversaria.

WTA Head-to-Head Effects

Le ripercussioni degli scontri diretti in campo maschile

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 15 marzo 2019 – Traduzione di Edoardo Salvati

Nell’opinionismo tennistico, le ripercussioni legate a partite tra specifici giocatori costituiscono un’idea diffusa. Risiedono al centro di commenti su come un particolare stile si adatti a quello dell’avversario. Un modo per identificarle è fornito da uno scontro diretto con esito a sorpresa, cioè quello in cui il risultato finale smentisce quanto ci saremmo attesi in funzione della bravura complessiva dei due giocatori.

Questo tipo di ripercussioni esistono? E sono sufficientemente concrete da ricoprire un ruolo nel fare previsioni migliori sulle partite di tennis?

Da tempo ormai mi occupo di previsioni di vittoria nel tennis. In qualsiasi conversazione sul metodo con esperti analisti, sono certa dell’arrivo di quella famigerata domanda (se solo predire i risultati delle partite fosse altrettanto facile!), se ho cioè considerato gli scontri diretti.

Per certi versi, qualsiasi metodo che includa i risultati passati di un giocatore considera anche gli scontri diretti. Però so che non è esattamente questo il punto della domanda, che invece si riferisce alle possibili conseguenze in termini di vantaggio che un giocatore potrebbe avere sull’avversario, ad esempio elementi come lo stile o l’intimidazione, e che vanno oltre quanto è possibile ricavare dal suo livello di bravura.

Alterazione della proprietà transitiva

La maggior parte dei metodi predittivi (e ne ho provati molti negli anni) ipotizzano che le capacità dei giocatori siano transitive. Vale a dire, se il giocatore A è due volte qualitativamente più forte dei giocatori B e C, allora le sue aspettative di vittoria in una partita contro B dovrebbero essere le stesse che contro C. Le ripercussioni degli scontri diretti mandano all’aria la proprietà transitiva, ponendosi a tutti gli effetti come un agente che contribuisce ad alterare il risultato delle partite tra giocatori in misura superiore a quanto spiegabile dalla bravura di uno contro l’altro, e viceversa.

Questo passaggio ci porta sulla giusta strada per come individuare la presenza di ripercussioni degli scontri diretti. Ipotizziamo di affidarci al nostro metodo preferito per pronosticare la probabilità che un giocatore i vinca una partita contro il giocatore j, che non tiene conto degli scontri diretti (ad esempio, escludendo le quote degli allibratori). Chiamiamo questa aspettativa di vittoria p̂ij. Un modello basilare per considerare gli scontri diretti è dato dalla formula:

logit[P(Wij=1)] = β0 + β1ij + αij

Il parametro αij è quello chiave. Si tratta di una costante sconosciuta per lo specifico scontro diretto che corregge le nostre aspettative quando p̂ij ipotizza che la bravura è transitiva.

Qual è lo scontro diretto tipico?

Prima di adattare il modello di riferimento, e anche prima di decidere se usare un metodo basato sulla probabilità o uno bayesiano, dobbiamo scegliere quali dati utilizzare. Rimanendo in campo maschile, vanno inclusi anche i Future o i Challenger? Oppure ci si limita solo al circuito maggiore?

Si ottiene una risposta guardando in quale livello più spesso si verificano partite tra gli stessi giocatori. Sappiamo che il tennis ha una struttura piramidale, per cui al diminuire della categoria dei tornei la dimensione del serbatoio competitivo aumenta repentinamente. Per questa ragione, si può sospettare ad esempio che i giocatori a livello Challenger non accumulino spesso un divario sostanziale negli scontri diretti con altri giocatori dello stesso circuito.

Cosa rivelano i dati?

Se si guarda a tutte le partite degli ultimi dieci anni sul circuito Challenge con almeno uno scontro diretto, si ottiene un numero molto elevato. La probabilità però che due giocatori estratti a caso dal serbatoio competitivo (cioè chiunque abbia giocato un Challenger o un torneo superiore nel periodo di riferimento) abbiano già giocato contro è solo di 2 su 100. Quella invece che due giocatori abbiano scontri diretti per almeno tre partite è di 3 su 1000. Si aveva già sensazione che la rivalità di 53 partite tra Rafael Nadal e Novak Djokovic fosse insolitamente lunga, ma diventa quasi incredibile quando più di tre scontri diretti nel tennis professionistico sono un evento con probabilità pari all’1% dell’1%.

Anche escludendo i tornei Challenger, la situazione non cambia drasticamente. Tra i giocatori più stabilmente nel circuito maggiore, la probabilità che due abbiano giocato tre o più partite contro in un periodo di dieci anni è comunque inferiore all’1%.

Perché queste considerazioni dovrebbero incidere sulla stima delle ripercussioni degli scontri diretti?

La presenza di molte partite tra due giocatori con un solo scontro diretto può alterare la stima delle ripercussioni spingendone qualsiasi effetto verso lo zero in misura maggiore di quanto accadrebbe con un campione più concentrato. La bassa frequenza di rivalità con molti scontri diretti suggerisce anche che eventuali correzioni che ne tengano conto (se fossero giustificate) difficilmente contribuiscono a un sostanziale e generalizzato miglioramento nel rendimento del modello predittivo. Ci tornerò più avanti, ma sarebbero comunque poche in una stagione le partite in cui due giocatori hanno accumulato anche un moderato numero di scontri diretti.

Rispetto alla media, abbiamo visto che aver giocato più di tre partite contro lo stesso avversario è una rivalità insolitamente lunga. Come mostra l’immagine 1, tra le partite di questo sottogruppo una su tre si è verificata a livello di Challenger, una su quattro nei tornei 250 e una su cinque nei Masters 1000.

IMMAGINE 1 – Distribuzione delle partite di rivalità lunghe (n > 3) per categoria di torneo

Ripercussioni degli scontri diretti

Data la preponderanza degli scontri diretti costituiti da una sola partita, mi concentro sulle ripercussioni di partite tra coppie di giocatori con una rivalità di almeno due partite a livello Challenger o superiore, prima del 2018 (lasciando le partite del 2018 e 2019 per un analisi esterna al campione principale).

Per l’aspettativa di vittoria p̂ij utilizzo le valutazioni Elo specifiche per superficie [1], perché sono un modello transitivo dinamico che tiene conto anche della bravura su una determinata superficie. Nella scelta di Elo come covariante predittiva, lo scopo per gli scontri diretti è quello di catturare qualsiasi ripercussione intransitiva che non abbia spiegazione dalla bravura complessiva o dalla preferenza di superficie dei giocatori.

Adattando un modello logistico combinato per questi scontri diretti, la deviazione standard per l’effetto casuale tra giocatore e avversario è stata di σ = 0.40, a indicazione della presenza di ripercussioni da scontri diretti. Se osserviamo la media condizionale delle stime per lo specifico effetto α̂ij il valore di 1 su 6 implicherebbe una correzione nelle previsioni di almeno il 15%. Vale a dire, un altro segnale statisticamente significativo di ripercussioni degli scontri diretti.

Le cento maggiori ripercussioni degli scontri diretti

Il grafico dell’immagine 2 è una Forest plot (o Blobbogram) delle cento maggiori ripercussioni degli scontri diretti dal campione di partite maschili. L’effetto è espresso in termini di fattore con cui moltiplicare la probabilità standard associata a questi giocatori in modo da riflettere le ripercussioni degli scontri diretti. Il giocatore a beneficiare dell’effetto generato dagli scontri diretti è il primo dei due nomi che compaiono nell’asse delle ordinate. Bolle più grandi indicano ripercussioni con maggiore certezza relativa.

Si possono fare molte interessanti considerazioni da questi risultati (e su un campione dei soli centro scontri diretti più ampi!). In cima all’elenco troviamo un gruppo di scontri diretti che riguardano Stanislas Wawrinka e Tomas Berdych, con il loro particolare accostamento che complessivamente registra l’effetto più sostanziale. Hanno giocato contro 16 volte in carriera, con Wawrinka avanti 11 a 5 e un solo set perso in dieci partite dal 2010. Le mie valutazioni specifiche per superficie evidenziano che Berdych aveva una valutazione più alta in tutte le ultime dieci partite, pur rimanendo molto vicini e in ogni partita a una distanza non superiore ai 50 punti. Questo rende il vantaggio di Wawrinka su Berdych sorprendentemente a senso unico.

Anche il confronto tra Wawrinka e Marin Cilic segue una simile dinamica. Wawrinka ha vinto le otto più recenti partite (su un totale di quattordici), nonostante Cilic avesse una valutazione Elo migliore nel 2016 e nel 2017.

IMMAGINE 2 – Cento maggiori ripercussioni degli scontri diretti con almeno due partite a livello Challenger o superiore

Non c’è la rivalità tra Nadal e Federer

Alcuni nomi ricorrono spesso, come quello di Fabio Fognini, che per cinque delle sette volte in cui è presente beneficia di un effetto positivo, con il margine più ampio nei confronti di Roberto Bautista Agut. Seguono Berdych e Horacio Zeballos, entrambi con sei apparizioni. David Ferrer compare cinque volte e per quattro subisce l’effetto negativo (contro Andy Murray, Djokovic, Wawrinka e Kei Nishikori). Ferrer è un caso interessante perché è spesso considerato tra i giocatori più forti a uscire sempre sconfitto contro i Fantastici Quattro. E questo ci dice che le ripercussioni degli scontri diretti emergono anche in riferimento al limite intrinseco del talento di un giocatore, e non necessariamente solo per una questione di opposizione di stili.

Ci saremmo aspettati di vedere tra i primi centro alcuni scontri diretti, come, tra tutti, quello di Nadal e Roger Federer. L’effetto in questo caso è a favore di Nadal per il 7% di probabilità di vittoria, non insignificante ma nemmeno grande quanto si sarebbe potuto pensare. Credo che si possa spiegare con il fatto che la maggior parte delle vittorie di Nadal è arrivata sulla terra battuta (13 su 23), dove la sua valutazione specifica per superficie giustifica quel record.

Federer e Wawrinka

Le ripercussioni degli scontri diretti tra Federer e Wawrinka hanno un effetto maggiore, poiché Federer riceve un aumento del 20% nella probabilità di vittoria. La recente vittoria all’Indian Wells Masters sembra quindi meno sorprendente. Un altro scontro diretto che ha avuto rilevanza a Indian Wells è quello tra Gael Monfils e Philipp Kohlschreiber. Dopo che Kohlschreiber aveva ottenuto un grande vittoria a sorpresa contro Djokovic, in molti avrebbero potuto pensare che sarebbe arrivato in fondo al torneo. Monfils sarebbe stato un avversario ostico per chiunque, ma l’effetto derivante dagli scontri diretti suggerisce che per Kohlschreiber lo è ancora di più, ponendolo tra i primi cento dell’elenco e costringendolo a una diminuzione della probabilità di vittoria di ben il 30%.

Miglioramento predittivo

Non serve applicare il correttivo degli scontri diretti per sapere che, per la maggior parte delle partite, non contribuirà a un miglioramento predittivo. Ci sono infatti pochissime partite tra giocatori che hanno giocato contro più di una volta in passato affinché questa correzione dia benefici di qualche tipo. Non significa però che manchi di valore.

La natura del tennis implica che le rivalità più grandi tenderanno a essere quelle tra i giocatori più famosi. Le tre maggiori rivalità nel campione di dati di quest’analisi sono tra Nadal e Djokovic, Federer e Djokovic, Djokovic e Murray. Per quanto rare siano le occorrenze con un alto numero di scontri diretti, quando si verificano riguardano partite di notevole impatto.

Se concentriamo l’attenzione solo sulle partite in cui gli scontri diretti potrebbero avere un peso, cosa troviamo?

Rivalità con almeno tre scontri diretti

Con partite dalle stagioni 2018 e 2019 come dati di analisi, ce ne sono state 754 in cui i giocatori avevano già collezionato più di tre scontri diretti. Va notato che per questo gruppo la variazione complessiva nell’accuratezza predittiva da previsioni standard a previsioni corrette con l’effetto degli scontri diretti è stata irrilevante.

Sottogruppo di partite più equilibrate

Se analizziamo il gruppo di partite più equilibrate di questo insieme, per le quali le previsioni standard erano tra il 40% e il 60%, possiamo dire che le previsioni corrette hanno avuto un rendimento superiore? L’accuratezza è stata del 55.4% con la correzione per scontri diretti rispetto al 54.9% di quella standard. È sicuramente un miglioramento, che potrebbe però non mantenersi su campionamenti ripetuti, visto che in questo caso si basava su 233 partite.

Sottogruppo con pronostico ribaltato

L’ultimo gruppo considerato è quello in cui la correzione per le ripercussioni degli scontri diretti ha di fatto ribaltato il pronostico del giocatore favorito (cioè quello con una vittoria attesa maggiore del 50%). Ci sono state solo 21 partite, un campione ridotto quindi, ma in cui è emersa la differenza più significativa tra previsioni con scontri diretti e standard, con un guadagno in precisione per la prima di cinque punti.

Per l’interesse associato a questo sottogruppo, e per il fatto che la correzione per scontri diretti ha avuto l’impatto più rilevante, ne ho costruito rappresentazione grafica come da immagine 3. Risultati e previsioni sono da leggersi in riferimento al primo giocatore della sfida.

IMMAGINE 3 – Previsioni corrette per scontri diretti e deviazione dalle previsioni standard per le partite con differenza più significativa

Si vede ad esempio che, per l’effetto scontri diretti, Stefanos Tsitsipas avrebbe ricevuto un incremento di 2 punti percentuali sulla previsione di vittoria contro David Goffin nella semifinale di Marsiglia 2019, che ha poi effettivamente vinto in due set.

Sebbene ci siano stati più cambiamenti a favore del già pronosticato vincitore, ce ne sono stati molti anche nella direzione sbagliata, fra tutti la sconfitta di Cilic contro Alexander Zverev alle Finali di stagione 2018. Con la correzione degli scontri diretti, il pronostico favoriva maggiormente Cilic (il 53% rispetto al 45% di Zverev) anche se poi la partita è stata vinta da Zverev.

Stile di gioco e scontri diretti

Pur in presenza di qualche segnale di miglioramento predittivo in rivalità con molti scontri diretti, campioni di partite ridotti rendono la correzione con le ripercussioni degli scontri diretti di difficile applicazione. Il metodo più immediato per ovviare al problema sarebbe quello di raggruppare i giocatori secondo lo stile di gioco, così da poter applicare alla stima degli effetti una maggiore sicurezza predittiva derivante da stili di gioco simili. Resta però poco chiaro come definire lo stile di gioco.

Allo stato attuale, correggere per specifiche ripercussioni degli scontri diretti possiede del merito, rivelando al contempo risultati attesi e sorprendenti sugli effetti più marcati derivanti dagli scontri diretti.

Note:

[1] Tecnicamente, il sistema di valutazioni Elo assume una relazione lineare tra la probabilità logaritmica di vittoria a la differenza in valutazione tra giocatori. Tuttavia, utilizzare la conversione in probabilità della previsione di vittoria consente una maggiore stabilità numerica del modello. In ogni caso, la scelta della modalità di conversione non ha un impatto sostanziale sui risultati.

Head-to-Head Effects

Dominic Thiem, Tennys Sandgren e l’adattamento al contesto del torneo

di Jeff Sackmann // TennisAbstract

Pubblicato il 20 febbraio 2019 – Traduzione di Edoardo Salvati

Dominic Thiem è uno dei più forti giocatori sulla terra battuta del mondo, con otto titoli e una finale al Roland Garros. Un record che però non è servito a granché nella sua partita inaugurale a Rio de Janeiro, dove ha perso in due set dal numero 90 Laslo Djere. È una sconfitta che richiama altri fallimenti di inizio torneo, come quello contro Martin Klizan ad Amburgo 2018 o l’incredibile vittoria a sorpresa del numero 222 Ramkumar Ramanathan sull’erba di Antalya 2017.

E non è nemmeno la prima volta in stagione che un giocatore non riesce a capitalizzare il vantaggio della testa di serie più alta. Di recente, le teste di serie numero 1 in tre tornei del circuito maggiore hanno perso le loro partite inaugurali. Andando più in profondità, ho trovato che le teste di serie numero 1 ottengono risultati inferiori alle attese in questo tipo di tornei minori. Tecnicamente, Rio è un evento di più alto profilo, ma il risultato è lo stesso: un giocatore di livello in un torneo non obbligatorio che torna a casa anticipatamente.

Naturalmente abbondano le teorie in merito. Ad esempio, che con la garanzia del bye per le teste di serie di vertice, è possibile che poi i più forti siano in pericolo di fronte alla miglior forma degli avversari (che hanno già giocato almeno una partita). In qualsiasi evento non obbligatorio, è possibile che le teste di serie di vertice non siano estremamente motivate, arrivando solamente per collezionare il gettone presenza. Infine, c’è il vecchio adagio che alcuni giocatori necessitano di adattarsi al contesto. In altre parole, devono trovare la loro strada per proseguire nel torneo. È quest’ultima teoria che m’interessa approfondire.

Abile e arruolato

Se a un giocatore serve del tempo per essere a suo agio, ci aspetteremmo che al primo turno giochi peggio del previsto, e che anche al secondo turno, seppur in misura minore, possa non fare bene quanto dovrebbe. Per dare credito a questa interpretazione, dovrebbe poi giocare meglio del previsto nei turni successivi perché, se non lo facesse, il rendimento mediocre nei turni iniziali non sarebbe stato sotto la media, ma semplicemente scadente. Queste prestazioni sopra e sotto la media sono altresì quantificabili.

Iniziamo da Thiem. Ho analizzato i suoi risultati in carriera sul circuito maggiore e suddiviso le partite in molteplici categorie (alcune si sovrappongono), come: prima partita in un torneo, seconda partita, prima partita in un torneo non obbligatorio, seconda partita o successive, finali, e così via. Per ciascuna, ho sommato il rendimento ottenuto e l’ho confrontato con le attese (Vittorie attese o “V att” nella tabella), sulla base delle previsioni Elo di quel momento. La tabella riepiloga i numeri di Thiem.

Categoria      Partite  V att   Vitt.   
Primo 141 94.3 94
Primo (250) 84 52.9 54
Primo/Secondo 238 151.3 151
Secondo 97 59.9 60
Secondo+ 203 117.7 118
Terzo 58 34.9 35
Terzo+ 106 60.7 61
Quarto 32 18.5 19
Finali 17 10.2 10

La sua prevedibilità ha quasi del comico. In 84 tornei non obbligatori fino al 17 febbraio 2019, secondo Elo avrebbe dovuto vincere la prima partita 53 volte. Thiem ne ha vinte 54. Se si considerano tutti i tornei, ha vinto la prima partita che ha giocato 94 volte, perfettamente in linea con le stime di Elo. Nelle nove categorie elencate, il rendimento non è mai migliore o peggiore delle attese di 1.1 partite. Se ha bisogno di adattarsi al contesto del torneo, certamente non lo si evince dai suoi risultati.

Cosa si può dire di Sandgren?

Anche a Thiem è capitata qualche sconfitta nei primi turni ma, nel corso della carriera, di solito ha vinto quel tipo di partite. Faremmo forse meglio a concentrarci su un giocatore da alti e bassi, cioè qualcuno che perde più spesso al primo turno, diventando però pericoloso quando avanza ai turni successivi.

Un perfetto esempio è dato da Tennys Sandgren. L’americano ha raggiunto i quarti di finale degli Australian Open 2018, la finale a Houston nello stesso anno e ha vinto a Auckland a inizio stagione. A parte questo, raramente viene intercettato dal radar tennistico. Recentemente, ha ammesso la mancanza di continuità di gioco nel podcast di Carl Bialik Thirty Love, spiegando secondo la prospettiva di un professionista perché ritiene che i suoi risultati siano così variabili. Come Thiem, ha perso facilmente in una partita di apertura a Delray Beach, racimolando solo quattro game contro Reilly Opelka.

Nessuna rilevanza statistica

I risultati per ciascun turno di Sandgren sono meno prevedibili di quelli di Thiem. Non c’è però molto nei numeri a supporto di una possibile versione iper spinta di giocatore del tipo “arrivo fino in fondo o vado a casa subito”. Visto che Sandgren ha giocato meno tornei di Thiem, ho incluso anche il rendimento dei Challenger prima di raggruppare le partite nelle categorie precedentemente individuate.

Categoria      Partite  V att   Vitt.   
Primo 124 64.7 62
Primo (250) 113 60.2 60
Primo/Secondo 186 96.4 98
Secondo 62 31.7 36
Secondo+ 120 60.3 63
Terzo 35 17.3 15
Quarto 15 7.3 9
Finali 8 4.2 3

Sandgren ha giocato peggio del previsto nelle prime partite e andato oltre le aspettative nei secondi turni, ma è un effetto che scompare dopo due partite del torneo. E in ogni caso, nessuno scostamento positivo o negativo rispetto al rendimento atteso è lontanamente vicino dall’avere una rilevanza statistica. Le sconfitte extra nelle prime partite hanno una probabilità su tre di accadere per caso, mentre le vittorie in più nelle seconde partite una probabilità su sei. Potrebbe esserci una tendenza interessante, ma l’effetto è ridotto ed è molto probabile che sia riconducibile esclusivamente al caso.

C’è qualcuno con risultati positivi?

Fino a questo punto abbiamo analizzato due giocatori che sembrava potessero avere un rendimento superiore o inferiore alle attese in determinati gruppi di partite, non trovandone riscontro. La teoria dell’adattamento al contesto del torneo sopravviverà sicuramente a questo articolo, ma facciamo in modo che non ci siano giocatori che la incarnino, anche se Thiem e Sandgren non sono tra quelli.

Ho replicato la procedura per gli altri 98 giocatori dei primi 100 della classifica attuale, raggruppando le partite in categorie e sommando le vittorie attese secondo la valutazione Elo e le vittorie effettive, calcolando infine la probabilità che i risultati – sopra o sotto le attese – siano dovuti al caso.

Emergono 1043 giocatori-categoria, dalle finali di Novak Djokovic alle prime partite (o le partite di primo turno) di Pedro Sousa (non tutti i giocatori hanno partite in ciascuna categoria, come la sesta partita o le finali, quindi il numero complessivo non è preciso). Di quei 1000 giocatori-categoria, solo 29 rientrano nei parametri tradizionali di significatività statistica, vale a dire che la probabilità che possano essere ricondotti al caso è inferiore al 5%.

Un esempio noto è quello del record di finali di Gael Monfils. Anche dopo la vittoria a Rotterdam, gli 8 titoli sono comunque oscurati dalle 21 sconfitte. Si tratta però di casi assolutamente rari. Visto che meno del 3% dei giocatori-categoria supera il limite del 5%, è sbagliato dire che queste categorie rappresentano delle tendenze concrete (come ad esempio una spiegazione di carattere psicologico per l’incapacità di Monfils di vincere le finali che gioca). In un migliaio di gruppi di partite, dozzine di queste dovrebbero essere degli estremi.

Conclusioni

In altre parole, non esiste supporto statistico all’affermazione che determinati giocatori sono più o meno efficaci in specifici turni del tabellone. È sempre possibile che un numero molto ridotto di giocatori abbia caratteristiche di questa natura, ma tra i 29 giocatori-categoria con risultati particolarmente improbabili, solo il record nelle finali di Monfils è interpretabile da teorie apparse in precedenza. Richard Gasquet ha vinto 120 volte le prime partite di un torneo non obbligatorio, undici in più di quanto ci si attendesse da lui, un extra rendimento poco probabile quanto lo è il crollo di Monfils nelle finali. Dovremmo forse parlare di quanto assiduamente si prepari Gasquet per l’inizio di un torneo, a prescindere dall’importanza dello stesso?

Può sempre succedere che i giocatori più forti, di fatto, si adattino gradualmente al contesto del torneo. Sulla base di quest’analisi però, è così solo se tutti entrano in forma approssimativamente con la stessa frequenza. Forse i primi turni mostrano una qualità inferiore alle semifinali. Ma se siamo interessati a fare previsioni sull’esito delle partite – anche nel caso dei risultati di primo turno di Thiem contro giocatori navigati – faremmo meglio a ignorare le teorie che popolano il tennis. Le partite di apertura non sono così speciali, nemmeno per i giocatori che pensano che lo siano.

Dominic Thiem, Tennys Sandgren, and Playing Your Way In

Pronostici maschili per la vittoria a Indian Wells

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 7 marzo 2019 – Traduzione di Edoardo Salvati

Dopo essere sembrato invincibile agli Australian Open, è Novak Djokovic il chiaro favorito per la vittoria a Indian Wells. Il Game Insight Group di Tennis Australia, la Federazione australiana, gli assegna una probabilità su due di vincere il titolo. La domanda quindi è se ci sia qualcuno davvero in grado di fermarlo.

A poche ore dall’inizio delle ostilità nel deserto californiano, vediamo quali sono i pronostici per il tabellone di singolare maschile. Utilizzando le valutazioni del Game Insight Group troviamo che le prime 4 teste di serie sono anche i primi quattro favoriti dal nostro modello, anche se Roger Federer, testa di serie numero 4, ha una probabilità cinque volte maggiore di quella di Alexander Zverev, testa di serie numero 3.

Djokovic

L’aspetto più interessante è capire quanto Djokovic sia più favorito di Rafael Nadal e Federer. Pur con sei partite da vincere, i trionfi a Wimbledon e US Open 2018 e la forma che gli ha consegnato il titolo agli Australian Open vedono Djokovic favorito con il 53% di probabilità, una posizione statisticamente inarrivabile.

Agli Australian Open, Djokovic ha accumulato altri 50 punti nella valutazione, cioè ha ora più di 200 punti rispetto a quelli dell’anno scorso nello stesso periodo. Anche se non ha più giocato da Melbourne, forza mentale ed equilibrio spirituale mostrati recentemente in pubblico suggeriscono che sia nell’animo giusto per soddisfare le aspettative riposte.

IMMAGINE 1 – Probabilità di titolo dei principali favoriti a Indian Wells

Attraverso le nostre simulazioni del torneo, possiamo anche ipotizzare il percorso più probabile delle prime 4 teste di serie, nel caso arrivassero in finale, come nell’immagine 2 (nella versione originale, è possibile vedere l’animazione del grafico, n.d.t.). Colpisce immediatamente la probabile seconda partita di Djokovic contro Nick Kyrgios, che ha appena vinto ad Acapulco battendo tra gli altri Nadal e Zverev. Si parlerà sicuramente a lungo della capacità di Kyrgios di eliminare Djokovic da Indian Wells, anche se ritengo che la regressione verso la media assegni poche possibilità a quel tipo di occorrenza. Gael Monfils, alla sesta posizione dei dieci più favoriti, dovrebbe essere il giocatore più pericoloso per Djokovic prima della semifinale.

IMMAGINE 2 – Percorso più probabile per le prime 4 teste di serie

Nadal

Anche Nadal sembra direzionato a una seconda partita complicata contro Daniil Medvedev, il più probabile degli avversari in quel turno e la nostra quinta scelta per la vittoria del titolo. È chiaro comunque che nessuno dei primi 4 ha un cammino facile. Anche se solo una frazione di questi possibili scontri si realizza, ci sarà del tennis eccitante nei prossimi giorni.

I pronostici per il tabellone di singolare femminile.

Men’s Title Predictions for Indian Wells

Pronostici femminili per la vittoria a Indian Wells

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 6 marzo 2019 – Traduzione di Edoardo Salvati

È uscito il tabellone del singolare femminile di Indian Wells, e in questo articolo analizzo le possibilità delle dieci giocatrici che più probabilmente lasceranno il segno.

Tutte le giocatrici di vertice saranno a Indian Wells, un torneo della categoria Premier Mandatory che inizia questa settimana. Quale tra loro ha più probabilità di vincere? Utilizzando le valutazioni del Game Insight Group di Tennis Australia, la Federazione australiana, comprensivi dei risultati maturati nei tornei della settimana scorsa, tre giocatrici emergono come maggiori favorite: Serena Williams, Naomi Osaka e Karolina Pliskova.

Williams

Williams prende la prima posizione con più di una probabilità su cinque di vittoria finale. Dovesse sfruttare questo margine sulle altre, sarebbe il suo primo titolo nel deserto californiano dal 2001, dopo però aver accettato di giocarci di nuovo solo nel 2015. Williams ha la testa di serie numero 10, dovuta a una classifica che si discosta dal rendimento storicamente maturato nei grandi eventi, così come dalla prova comunque positiva agli Australian Open, dove solo una storta alla caviglia sembra averle impedito di chiudere il quarto di finale contro Pliskova.

Si tratta del primo torneo in cui gioca Williams dopo quella sconfitta, con un punto di domanda sullo stato di forma rispetto al circuito (visti anche i suoi impegni recenti con i reali britannici e gli Oscar del cinema). Gli stessi dubbi erano emersi a gennaio alla vigilia del primo Slam, poi però una striscia di prestazioni convincenti aveva fugato qualsiasi perplessità. Ci si attende una dinamica simile anche a Indian Wells.

Osaka

Osaka, la testa di serie numero 1, dovrà gestire il peso delle grandi aspettative nei suoi confronti. È al secondo posto tra le favorite con una possibilità di circa il 16% di vittoria. Osaka arriva dal secondo Slam a Melbourne, impresa con cui è entrata tra le migliori di sempre. Un brutto torneo a Dubai però e la non facile separazione dall’allenatore rendono legittime eventuali riserve sulla sua condizione, rispetto a quella mostrata in Australia.

IMMAGINE 1 – Probabilità di titolo delle principali favorite a Indian Wells

Con Williams e Osaka ai lati opposti del tabellone, c’è la possibilità di una replica della finale degli US Open 2018. Tra le avversarie che Williams potrebbe trovare in finale, arrivandoci a sua volta, diamo poco più di una probabilità su quattro a Osaka. La speranza quindi, anche per dare credito a questo pronostico, è che giochino al massimo del loro potenziale.

Pliskova

La presenza di Pliskova nel quarto di Osaka rende l’accesso alla semifinale più complicato a entrambe. Con Pliskova al terzo posto delle nostre preferenze, la probabilità di una semifinale tra le due è ancora più alta, esattamente al 63% secondo il nostro modello. Pliskova ha la fiducia dalla sua grazie anche ai buoni risultati di Dubai.

Halep

Nel quarto numero 4, quello di Simona Halep, ci sono tre giocatrici con possibilità di titolo. Ashleigh Barty all’11%, Halep al 10% e Elina Svitolina al 4%. Prepariamoci per i fuochi d’artificio in quella parte di tabellone.

Kvitova

Nel quarto numero 2 la giocatrice con più opportunità nel nostro elenco è anche la testa di serie più alta, Petra Kvitova. La troviamo in quinta posizione con una probabilità su dieci di vittoria. Ha però altre due tra le prime 10 nel quarto che potrebbe dover affrontare, cioè Aryna Sabalenka o Madison Keys.

Bencic

I riflettori saranno puntati anche su Belinda Bencic, che ha appena trionfato a Dubai. Anche se Bencic non rientra tra le più favorite, ha guadagnato 124 punti di valutazione avendo battuto quattro tra le prime 10 che consideriamo favorite a Indian Wells.

A seguire i pronostici per il tabellone di singolare maschile.

Women’s Title Predictions for Indian Wells

Nick Kyrgios è più prevedibile di quanto si pensi

di Jeff Sackmann // TennisAbstract

Pubblicato il 5 marzo 2019 – Traduzione di Edoardo Salvati

C’è un’ostinata convinzione tra appassionati di tennis e opinionisti per cui alcuni giocatori sono più discontinui di altri. Nella conversazione odierna, mi riferisco ai risultati delle singole partite, quindi a quei giocatori che hanno la predilezione per eliminare avversari di più alta classifica ma che sono anche particolarmente suscettibili a sconfitte contro giocatori più deboli. C’è una pletora di aggettivi per questo, come imprevedibile, pericoloso, spinoso, e quello preferito per Nick Kyrgios, cioè incostante.

E sinora nella stagione 2019, Kyrgios ha dato perfetta prova di incostanza. Dopo aver perso ai primi turni contro Jeremy Chardy (a Brisbane) e Radu Albot (a Delray Beach), si è ripreso vincendo l’ATP 500 di Acapulco della scorsa settimana, eliminando Rafael NadalStanislas WawrinkaJohn Isner e Alexander Zverev. Non c’è dubbio che Kyrgios possieda più talento di quanto la sua classifica suggerisca. Stiamo parlando di un giocatore che ancora deve entrare tra i primi 10, ma che può vantare un record in parità, nelle partite terminate, nei confronti de i Grandi Tre (i Fantastici Quattro senza Andy Murray, n.d.t.), l’unico tra i giocatori in attività (considerando almeno cinque partite, a eccezione di Nadal e Novak Djokovic stessi).

Sembra poco regolare, ha risultati imprevedibili. Rispetto all’incertezza intrinseca di qualsiasi partita tra professionisti al vertice, come si posiziona Kyrgios? Come suggerisce il titolo dell’articolo, la risposta non è così lineare come possa sembrare.

Una misura della prevedibilità

Prendiamo il tipo opposto di giocatore, che batte regolarmente avversari di classifica inferiore ma che perde, di solito, contro quelli più forti di lui. Roberto Bautista Agut si è fatto questa reputazione, e come vedremo i numeri la confermano, malgrado la vittoria a sorpresa a Doha un paio di mesi fa contro Djokovic. Se la prevedibilità di un giocatore fosse così scontata, dovrebbe emergere dal paragone tra le previsioni prima della partita e i risultati che ottiene. Per il tipo alla Bautista Agut, la previsione sarebbe molto accurata, mentre per il gruppo di appartenenza di Kyrgios la previsione sarebbe molto meno affidabile.

Esiste già una statistica al proposito. L’indice Brier misura l’accuratezza delle previsioni, non solo in termini di effettiva correttezza ma anche di vicinanza del pronostico. Ad esempio, dopo la vittoria di Kyrgios contro Zverev nella finale di Acapulco, chi lo ha pronosticato vincente al 90% è stato più preciso di chi gli ha dato il 60% di probabilità. Troppa sicurezza invece amplifica il rischio di un indice Brier peggiore: se si pronostica il favorito sempre vincente al 90%, si sbaglierà spesso. L’indice Brier è la differenza quadratica tra il pronostico prima della partita (ad esempio il 90%) e il risultato (1 o 0, a seconda che la scelta sia corretta o sbagliata).

L’indice Brier per le partite del circuito maschile si attesta intorno al valore di 0.2. Se si riesce a ottenere un valore inferiore a questo, a indicazione di una minore distanza tra pronostici e risultati effettivi, si dovrebbero guadagnare soldi scommettendo sulle partite. Se invece si è molto superiori allo 0.2, non ci si discosta troppo dal classico lancio della moneta. Utilizzando pronostici casuali al 50/50, ne consegue un indice Brier di 0.25.

Brier-gios

L’indice Brier per il pronostico delle partite di un giocatore davvero imprevedibile dovrebbe avvicinarsi allo 0.25, eccedendo facilmente il tipico valore di 0.2 del circuito. Per determinare l’affidabilità delle previsioni pre-partita su Kyrgios e altri giocatori, uso le mie valutazioni Elo specifiche per superficie per tutte le partite del tabellone principale completate sul circuito dal 2000, in modo da generare previsioni per ciascuna. Con questo metodo ad esempio, Zverev aveva il 67.4% di probabilità di vincere la finale di Acapulco.

Fino a questo momento della stagione 2019, si può affermare che Kyrgios sia veramente imprevedibile. L’indice Brier per le dieci partite giocate è di 0.318, vale a dire che con un processo decisionale del tipo testa o croce si sarebbero ottenuti pronostici identici in modo molto più semplice. Anche se aumentiamo retroattivamente la sua probabilità di vincere per riflettere una condizione migliore di quanto la valutazione Elo assegni, l’indice Brier è di 0.277, sempre peggiore del lancio della moneta.

Si tratta però solo di dieci partite. Ci sono alcuni altri giocatori nel 2019 con un indice Brier ben al di sopra della soglia di 0.25, tra cui Frances TiafoeJoao SousaJuan Ignacio Londero e Felix Auger Aliassime. Da una manciata di tornei, si avrà sempre qualche risultato incerto, per via di miglioramenti sostanziali (come è probabile nel caso di Auger Aliassime) o di situazioni di evidente fortuna o sfortuna. A meno di non voler ammettere che anche Sousa e Londero sono giocatori altamente imprevedibili, non dovremmo trarre la stessa conclusione sulla base delle ultime dieci partite di Kyrgios.

Ottieni quello che hai pronosticato

L’indice Brier per le previsioni tramite valutazioni Elo delle partite sul circuito maggiore in carriera di Kyrgios è di 0.219. È più alto, e quindi meno prevedibile, della media, ma non di molto. Dei 280 giocatori con almeno 100 partite sul circuito maggiore dal 2000, Kyrgios è all’84esimo posto, più affidabile del 30% dei colleghi. Nel 2017, i risultati da lui ottenuti sono stati abbastanza imprevedibili, con un indice Brier di 0.244, mentre nel 2015 e 2016 il valore è stato di un più banale 0.210. Nel 2018 invece sono stati decisamente prevedibili, con un indice Brier di 0.177.

La tattica, il rendimento sul singolo punto o il comportamento in campo di Kyrgios possono essere soggetti a imprevedibilità, non è così per i risultati. La tabella mostra, oltre a Kyrgios, i 15 giocatori più imprevedibili tra quelli in attività in termini di indice Brier e poi i 15 giocatori più prevedibili sempre tra quelli in attività.

Giocatore       Partite  Brier   
Pouille 189 0.247
Rublev 106 0.245
Paire 377 0.239
Karlovic 650 0.239
Tsitsipas 100 0.232
Khachanov 154 0.231
Gojowczyk 102 0.231
Delbonis 225 0.227
Copil 108 0.227
Dzumhur 173 0.227
Gulbis 420 0.226
Cuevas 338 0.226
M. Zverev 297 0.226
J. Sousa 323 0.226
Coric 210 0.226
...
Kyrgios 191 0.219
...
Ebden 171 0.188
Goffin 344 0.188
Cilic 684 0.186
Gasquet 770 0.183
Berdych 911 0.182
Raonic 448 0.178
Ferrer 1048 0.177
Tsonga 600 0.175
Bautista Agut 384 0.172
Nishikori 517 0.167
Del Potro 560 0.160
Murray 802 0.146
Federer 1350 0.121
Djokovic 951 0.117
Nadal 1060 0.114

Pouille

È stato quasi impossibile pronosticare i risultati di Lucas Pouille. L’indice Brier generato dall’esito delle sue partite nel 2018 era di circa 0.3, a suggerire che sarebbe stato più intelligente fare un pronostico e poi scommettere contro il pronostico stesso!

Karlovic, Isner, Opelka

Anche Ivo Karlovic è tra i giocatori meno affidabili, non è chiaro se per via dell’insolito stile di gioco. Isner, l’unico confronto adeguato che abbiamo, è affidabile in media con il circuito, con un valore Brier in carriera di 0.201. Reilly Opelka, l’altra macchina da ace di altezza vertiginosa tra i primi 100, nel 2019 ha fatto meglio del pronostico, ma non ha accumulato dati a sufficienza per arrivare a una valida conclusione.

I più affidabili

Sulla sponda opposta, troviamo tra i più affidabili molti dei migliori. Risponde a una certa logica: un giocatore dominante non solo vince la maggior parte delle partite che dovrebbe vincere, ma il suo rendimento ci spinge a fare previsioni più aggressive. Spesso Nadal inizia una partita con una percentuale di vittoria di almeno il 90% e pronostici così certi – fintantoché il giocatore li conferma vincendo – determinano bassi indici di Brier.

Costanti risultati di continuità

C’è la tendenza a un’eccessiva interpretazione dei risultati insoliti. Kyrgios ne ha regalati molti e lo abbiamo ricambiato facendolo passare per un battitore libero più di quanto non lo sia. Un paio di settimane fa mi sono interrogato in merito a un simile quesito e ho trovato che i giocatori non devono davvero “adattarsi al torneo”, ottenendo quindi risultati migliori o peggiori a seconda del turno.

Non siamo proprio di fronte alla stessa problematica, ma è simile la verità di fondo: la metodologia attuale genera pronostici molto buoni, ma rimarrà sempre grande casualità nei risultati, e le storie che inventiamo per tenerne conto in realtà non la spiegano più di tanto.

Kyrgios è un giocatore immensamente interessante – nel podcast di ieri ho scherzato sul fatto che i lettori del blog dovranno prepararsi a una serie di dieci puntate su di lui – e scavare nelle statistiche punto per punto potrebbe portare alla luce caratteristiche che lo rendono unico nel circuito. Non si può negarlo. Ma a livello di partita nel torneo, la probabilità di sue vittorie a sorpresa non è per nulla unica, anche se è il nuovo orgoglioso possessore di un sombrero che fa pensare esattamente il contrario.

Nick Kyrgios is More Predictable Than We Think