Previsioni per il Miami Masters 2018

di Stephanie Kovalchik // OnTheT

Pubblicato il 21 marzo 2018 – Traduzione di Edoardo Salvati

Dopo un avvio di stagione praticamente perfetto, con 17 partite vinte e 1 sconfitta, Roger Federer si presenta al Miami Masters con una probabilità di vittoria superiore al 50%, grazie anche a un tabellone favorevole. Chi sono gli altri pretendenti al titolo meglio posizionati, nel singolare maschile e in quello femminile?

Pronostici maschili

Con l’ausilio delle valutazioni Elo elaborate dal Game Insight Group, siamo in grado di pronosticare l’esito più probabile per il Miami Masters 2018, sulla base di 5000 simulazioni del tabellone del torneo.

Pur avendo mancato l’opportunità di vincere il suo primo Master della stagione solo qualche giorno fa a Indian Wells, Federer è il favorito indiscusso per la vittoria finale.

Con una probabilità del 55%, tiene a larga distanza – quasi tre volte tanto – il secondo tra i favoriti, Novak Djokovic. Sono numeri riflettono il predominio di Federer sul cemento a partire dagli Australian Open 2017 e il rendimento sotto le attese, per via di infortuni o assenze, di alcuni dei giocatori più forti del circuito.

Juan Martin Del Potro è al terzo posto e la probabilità di replicare il successo di Indian Wells è a un solido 11%. Per gli altri le previsioni sono meno generose, ma tra i nomi più accreditati troviamo alcuni dei giovanissimi più noti, vale a dire Nick Kyrgios, Alexander Zverev e Hyeon Chung.

Il quarto più duro

IMMAGINE 1 – Probabilità di vittoria in percentuale per i maggiori pretendenti al titolo

Non aveva certamente bisogno di fortuna, ma finendo nel primo quarto di finale (il più in alto della parte alta del tabellone) Federer ne ha ricevuta una buona dose. Nessun giocatore del quarto è tra i primi 10 favoriti e il più forte, Kevin Anderson, contro il quale Federer potrebbe giocare in semifinale se entrambi vincono i rispettivi turni, ha meno dell’1% di pronostico per la vittoria finale.

Qualsiasi altro giocatore di vertice aiutato dalla fortuna a finire nel primo quarto avrebbe visto il suo pronostico guadagnare dieci punti percentuali.

IMMAGINE 2 – Variazione della probabilità di vittoria del torneo in punti percentuali in funzione del quarto di riferimento

Il terzo quarto invece è sovraffollato di potenziali vincitori, a renderlo di gran lunga il più difficile. Vi sono finiti infatti tre dei quattro maggiori aspiranti al titolo, Djokovic, Del Potro e Grigor Dimitrov. Se Miami poteva essere il torneo per Djokovic per far vedere di essere tornato in piena forma, la sfortuna gli ha reso il compito molto più complicato di quanto avrebbe potuto essere.

Pronostici femminili

È difficile ipotizzare per il tabellone femminile dei pronostici più diversi da quelli visti in campo maschile. Se è consentito riassumere la situazione degli uomini con la parola “a senso unico”, per le donne le previsioni sono di un torneo estremamente equilibrato, in special modo tra le più forti, così da aumentare le attese per un finale al cardiopalmo.

IMMAGINE 3 – Probabilità di vittoria in percentuale per le maggiori pretendenti al titolo

Con una probabilità del 14% Simona Halep è la favorita, appena sopra a Caroline Wozniacki, che l’ha battuta agli Australian Open 2018 negandole il suo primo Slam.

Le rimanenti giocatrici tra le prime otto teste di serie sono sperate solo da qualche punto percentuale, compresa Serena Williams, che, prima del 2017, raramente avrebbe avuto un pronostico di settima favorita per il torneo. Un altro elemento che sottolinea la competitività e l’equilibrio del circuito femminile nel 2018.

Il quarto più duro

Anche per le donne, come per gli uomini, è il terzo quarto a rappresentare la parte di tabellone in cui la fortuna è stata assente. Troviamo Elina Svitolina e altre tre giocatrici delle prime 10 favorite, tra cui Petra Kvitova, William e Darya Kasatkina, la finalista a Indian Wells. È il quarto con il maggior numero di pretendenti al titolo.

IMMAGINE 4 – Variazione della probabilità di vittoria del torneo in punti percentuali in funzione del quarto di riferimento

Se Halep fosse finita nel terzo quarto, avremmo visto la sua probabilità di vittoria diminuire di ben 10 punti percentuali. Anche lei, come è stato per Federer, è tra le giocatrici che più hanno beneficiato dei regali della fortuna.

Forecasts for the 2018 Miami Masters Title

Il movimento analitico del tennis celebra il linguaggio R a Cape Town

di Stephanie Kovalchik // OnTheT

Pubblicato il 18 marzo 2018 – Traduzione di Edoardo Salvati

Mentre all’Indian Wells Masters andava in scena l’atto conclusivo (con la finale vinta da Juan Martin Del Potro contro Roger Federer, n.d.t.), il movimento analitico del tennis si radunava dall’altra parte del mondo, a Cape Town in Sudafrica, per la conferenza satRday.

Le occasioni per affinare gli strumenti del mestiere di un analista di dati nel tennis sono piuttosto rare. È stata quindi una fortuna poter partecipare alla 2018 satRday Cape Town Conference, organizzata da Andrew Collier (@DataWookie) e dai suoi colleghi.

Di ritorno a Cape Town, la 2018 satRday ha dedicato un intero giorno a sviluppatori e appassionati di R per la condivisione di modalità ed eccitanti novità in merito all’utilizzo e al miglioramento di questo linguaggio di programmazione.

Venti dei ventitré oratori sono al momento attivi in Sudafrica, ed è stato molto interessante conoscere dettagli approfonditi del loro apporto a R.

Il linguaggio R per l’analisi sportiva

Nel mio intervento ho illustrato l’utilizzo di R per elaborare statistiche di tennis in tempo reale con il Game Insight Group della Federazione australiana. In uno dei seminari che hanno preceduto la conferenza, ho potuto mostrare ai partecipanti alcuni esempi concreti di analisi statistica nello sport funzionali a raccogliere, indagare e modellare dati in modo più efficace attraverso R. Materiale e presentazioni per il seminario sono disponibili qui.

Sebbene la conferenza fosse aperta a qualsiasi argomento relativo a R, è stato degno di nota il numero di presentazioni con estrema rilevanza per l’analisi sportiva.

Ad esempio, Neil Watson (@rugbystatsguy), docente della University of Cape Town è intervenuto sull’utilizzo di R per analizzare e visualizzare il vantaggio psicologico nelle partite del Rugby a 15 (o Rugby Union).

Sean Soutar, studente della medesima università, ha illustrato l’uso di Docker e RSelenium per raggranellare dati dinamici da internet, due applicativi di cui spesso mi servo per raccogliere dati sul tennis.

Robert Bennetto ha esaltato i vantaggi del pacchetto sp per gestire dati di posizionamento, che potrebbe diventare una risorsa particolarmente comoda per creare indici di posizionamento nello sport.

La divertente presentazione di Peter Kamerman riguardo a purrr mi ha convinto della bontà di pacchetti map e pmap nei miei tentativi alla programmazione funzionale in R.

Ho apprezzato molto anche l’intervento a chiusura dei lavori di David Lubinsky, così chiaro sui meriti di profvis – sviluppato da Winston Chang per profilare il codice in R – che senza dubbio sarà di grande aiuto nell’individuare colli di bottiglia nella mia futura scrittura di codice.

Il lavoro delle programmatrici R per la comunità

Oltre a queste preziose indicazioni per l’analisi statistica nello sport, sono rimasta impressionata dall’incredibile lavoro che le programmatrici in R stanno portando avanti a favore della comunità R.

Due di loro meritano speciale menzione. Da un lato, Wiebke Toussaint, che ha condiviso – con illimitato entusiasmo – l’utilizzo di ckanR per rendere disponibili a chiunque i dati da ricerche nel settore energetico attraverso un portale a libero accesso.

Dall’altro, Maëlle Salmon (@ma_salmon), che ha dato il via alla conferenza con una presentazione così coinvolgente da rendere l’atmosfera dell’intero programma di massimo entusiasmo e condivisione.

Salmon è una Research Software Engineer per rOpenSci, il cui obiettivo e quello di rendere lo sviluppo di pacchetti in R un’esperienza più collaborativa, veloce e divertente. Nel suo intervento, ha catturato l’attenzione di tutti mostrando come rOpenSci stia facilitando l’attività degli sviluppatori nel migliorare i programmi.

Certamente un intervento da circoletto rosso!

Cape Town celebrates R and tennis data science at satRday?

Quanto è davvero forte Serena Williams come giocatrice di tennis?

di Stephanie Kovalchik // OnTheT (su TheConversation)

Pubblicato l’8 settembre 2016 – Traduzione di Edoardo Salvati

Pur avendo perso in semifinale nelle ultime due edizioni degli US Open in cui ha giocato (avendo saltato poi gli US Open 2017 per via della gravidanza, n.d.t.), Serena Williams è già entrata nella storia del torneo.

Nuovo record

Raggiungendo i quarti di finale nel 2016 e conquistando la 308esima vittoria, Williams ha sorpassato il record di Roger Federer per numero di partite vinte negli Slam da un giocatore o giocatrice (Federer ha di nuovo allungato arrivando a 332 vittorie contro le 316 di Williams. La successiva vittoria agli Australian Open del 2017 porterà il totale degli Slam di Williams a 23, uno in più di Steffi Graf e record assoluto per una giocatrice nell’era Open, n.d.t.).

Nel tennis moderno, i tornei dello Slam – i quattro più prestigiosi della stagione – rappresentano lo standard valutativo della grandezza di una giocatrice. Solo tre donne nell’era Open, oltre a Williams e Graf, hanno vinto più di dieci Slam nel singolare: le rivali Chris Evert e Martina Navratilova, entrambe arrivate a 18, e Billie Jean King, che ne ha vinti 12.

Il fatto che Williams sia a 23 e continui a essere considerata tra le favorite in ogni Slam a cui partecipa ha indotto più di un commentatore a definirla la più grande di tutti i tempi.

Ci si chiede però se i tornei dello Slam siano davvero la modalità più efficace per misurare la grandezza di una giocatrice.

Per riepilogare i traguardi raggiunti in una carriera, l’attenzione esclusiva sui tornei dello Slam ha delle forti limitazioni. Non considera ad esempio i risultati di tutti gli altri tornei, che costituiscono la gran parte del calendario.

E, nel caso di Williams, il conteggio degli Slam non è in grado di far emergere due aspetti della carriera che in molti giudicano meritevoli di speciale menzione: la portata e la longevità del suo predominio.

Sistema Elo superiore agli Slam

Una metodologia più esaustiva per misurare la grandezza della carriera di una giocatrice è il sistema Elo, basato sull’approccio statistico nella valutazione della bravura di un’atleta e nella previsione di rendimento contro una specifica avversaria.

Versioni del sistema di valutazione Elo sono disponibili per molti degli sport professionistici in tutto il mondo, e anche nel tennis siti come TennisAbstract, FiveThirtyEight, OnTheT o TennisEloRanking stanno da tempo promuovendone la causa.

La valutazione Elo nel tennis è un numero che varia costantemente in funzione dei risultati ottenuti da una giocatrice, come una sorta di indice azionario il cui obiettivo è la misurazione del rendimento.

A differenza della classifica ufficiale, la valutazione Elo è basata su un modello statistico che rileva lo scostamento positivo o negativo della prestazione di una giocatrice rispetto alle attese.

La valutazione si aggiorna dopo ogni partita – tenendo in considerazione la bravura dell’avversaria – così che la vittoria contro giocatrici più forti assegni più punti.

In questo modo la valutazione Elo è in grado di integrare il contesto di riferimento di una giocatrice, rendendo il confronto tra epoche molto più significativo rispetto al mero computo degli Slam vinti.

IMMAGINE 1 – Valutazioni Elo in carriera per le dieci giocatrici con il maggior numero di Slam nell’era Open

L’unicità di Serena

Osservando l’andamento delle valutazioni Elo delle dieci giocatrici con il più alto numero di Slam nell’era Open, si può notare l’unicità della carriera di Williams. Dopo Navratilova, è infatti la sola del gruppo ad aver raggiunto una valutazione Elo superiore a 2400 una volta superati i 34 anni. E ci sono altri indicatori di longevità del suo predominio.

Se di norma la bravura di una giocatrice raggiunge un punto di massimo per poi gradualmente recedere, nel caso di Williams si è assistito a due momenti di picco: all’età di 21 anni, quando la sua valutazione Elo ha raggiunto i 2578 punti e all’età di 33 anni, con 2486 punti.

Sebbene Monica Seles, Graf e Navratilova abbiano raggiunto valutazioni Elo individuali superiori a quella di Williams, nessun’altra giocatrice è tornata a essere la più forte varcata la soglia dei trent’anni.

L’immagine 2 mostra il numero di anni di massima valutazione Elo per una giocatrice e – in presenza di massima valutazione – l’ampiezza del distacco dalla seconda giocatrice più forte in quello stesso anno.

Solo due donne dall’inizio degli anni ’70 sono state per almeno otto anni le giocatrici con massima valutazione Elo, appunto Williams e Graf.

L’orizzonte temporale di Graf si è esteso per 11 anni (dal 1988 al 1999), mentre quello di Williams è durato 13 (dal 2002 al 2015), ma non si è interrotto (alla fine di febbraio 2018, Williams era al primo posto con una valutazione Elo di 2418.5 punti davanti a Victoria Azarenka a 2263.7, n.d.t).

Ancora più impressionante è il fatto che, in media, la differenza tra il massimo di Williams e la sua diretta inseguitrice negli anni in cui è stata la prima giocatrice per valutazione Elo è stata di 80 punti, mentre quella di Graf si è fermata a 60 punti (tra Williams e Azarenka ci sono al momento 155 punti, n.d.t.).

IMMAGINE 2 – Massime valutazioni Elo per anno delle dieci giocatrici con il maggior numero di Slam nell’era Open e differenza con la massima valutazione della seconda migliore giocatrice

Un dominio senza rivali

Quasi incredibile a credersi è la capacità di rendimento assoluto di Williams dopo i trent’anni. In ciascun anno successivo, Williams ha ottenuto la valutazione Elo più alta con un distacco medio sulla seconda migliore di 150 punti. Questo vuol dire che, dopo i trent’anni, Williams è partita da favorita sulla seconda migliore per 3 a 1.

In altre parole, nel suo recente periodo di predominio, Williams non ha avuto rivali. Nessuna giocatrice l’ha mai messa costantemente in difficoltà e solo di rado ha subito importanti sconfitte. Ulteriore prova di come la sua carriera si sia distinta anche tra quella delle più grandi del tennis.

Campionesse del passato come Evert e Graf hanno avuto accesa rivalità rispettivamente da Navratilova e Seles, e sono state costrette ad alzare il livello di gioco. Williams invece ha espresso il massimo in una situazione in cui era la sua sola rivale.

Williams è arrivata a un’età in cui la maggior parte delle giocatrici si è ritirata o ha subito un profondo calo di rendimento: il suo regno continua (con la vittoria degli Australian Open 2017, prima di doversi fermare per la gravidanza, n.d.t.).

Se il dibattito su come valutare la grandezza nel tennis non sembra ancora trovare un approdo condiviso, l’eccellenza dei traguardi raggiunti da Williams non è oggetto di discussione.

Just how great a tennis player is Serena Williams?

L’invecchiamento nel circuito maschile non sembra arrestarsi

di Stephanie Kovalchik // OnTheT

Pubblicato il 5 settembre 2015 – Traduzione di Edoardo Salvati

L’età media dei giocatori che hanno raggiunto gli ottavi di finale agli US Open 2015 (vinti poi da Novak Djokovic, 28 anni, in finale contro Roger Federer, n.d.t.) è stata di 29.3 anni: cinque di quei sedici – Feliciano Lopez (34.0), Jo-Wilfried Tsonga (30.4), Stanislas Wawrinka (30.4), John Isner (30.4) e Federer (34.1) – avevano superato i trent’anni.

Il predominio dei veterani

Come mostra l’immagine 1 (nella versione originale, è possibile visualizzare i singoli valori puntando il mouse sul grafico, n.d.t.), il predominio dei giocatori considerati veterani è cresciuto stabilmente dalla metà degli anni ’80. Nel trentennio dal 1984 al 2014, l’età media dei giocatori che hanno raggiunto il terzo turno di uno Slam è aumentata di tre anni, passando da 23.7 a 26.7.

IMMAGINE 1 – Andamento in termini di età dei giocatori che avanzano al terzo turno di uno Slam nel periodo dal 1984 al 2015

Nella finale degli US Open 2005 Federer, a quell’epoca ventiquattrenne, sconfisse Andre Agassi, 35 anni, in 4 set. In un’intervista con la televisione americana ESPN durante gli US Open 2015, ripensando a quella finale Federer ha ricordato di essersi prefisso l’obiettivo di arrivare a giocare allo stesso livello di Agassi una volta raggiunta la metà della sua quarta decade.

Federer ha poi ampiamente superato quel traguardo ma, sul momento, sarebbe risultato piuttosto ambizioso. Negli anni di attività di Agassi, trovare veterani in grado di ambire alla vittoria di uno Slam era un evento raro, come mostra l’immagine 2. Prima del 2000, raggiungevano il secondo turno di uno Slam meno di dieci giocatori di almeno trent’anni. Durante gli anni ’00, quel numero si era avvicinato a venti superando, negli ultimi quattro anni, i venticinque a stagione.

IMMAGINE 2 – Miglior risultato ottenuto da giocatori di almeno trent’anni in uno Slam nel periodo dal 1984 al 2014

L’invecchiamento nel circuito è legato alla trasformazione nel modo di giocare

Con il predominio del tennis da parte dei veterani, è diventato sempre più difficile per i giovanissimi farsi strada verso la conquista di uno Slam. A partire dalla metà degli anni ’90, nella maggior parte delle stagioni ne sono approdati al secondo turno meno di cinque, come mostra l’immagine 3.

Le dinamiche d’invecchiamento del circuito maschile si allineano quasi perfettamente a quanto riscontrato per le donne, con l’età media di giocatori (e giocatrici) che raggiungono le fasi finali di uno Slam cresciuta di tre anni nell’ultimo trentennio.

Il generalizzato invecchiamento nel tennis suggerisce che i cambiamenti verificatisi siano stati dettati da una trasformazione fondamentale nel modo di giocare – vale a dire il declino della tattica servizio e volée a favore della diffusione di un tennis maratona – trasformazione che è iniziata verso la fine degli anni ’90 ed è concisa con l’ascesa dei giocatori veterani.

IMMAGINE 3 – Miglior risultato ottenuto da giocatori non ancora ventenni in uno Slam nel periodo dal 1984 al 2014

Con l’introduzione di nuove tattiche come la risposta iper-aggressiva muovendosi rapidamente all’interno del campo sulla seconda di servizio e la generale volontà di velocizzare gli scambi con maggiori discese a rete, Federer ha cercato di reintrodurre schemi di gioco che richiamano l’era del servizio e volée, ma non ci sono ancora segnali diffusi che questa possa essere una tendenza del tennis prossimo venturo.

An Aging ATP – No End in Sight

La WTA sta invecchiando bene

di Stephanie Kovalchik // OnTheT

Pubblicato il 5 settembre 2015 – Traduzione di Edoardo Salvati

Negli ultimi anni (grazie anche alle vittorie a Wimbledon 2016 e agli Australian Open 2017, che le hanno permesso di superare Steffi Graf nel numero di Slam vinti in singolare, n.d.t.) Serena Williams si è assicurata il titolo di atleta ultratrentenne più decorata.

Serena e le altre trentenni al vertice

Dieci anni fa, in pochi avrebbero creduto che una giocatrice – superata la soglia dei trent’anni – avrebbe raggiunto il suo massimo rendimento. Non ci sono dubbi che i risultati di Williams e il suo ritorno a livelli di vertice in questa fase della carriera siano eccezionali (almeno prima della pausa per la gravidanza, n.d.t.). Quello che forse è meno considerato è che Williams guida un gruppo di giocatrici con trenta o più anni all’apice del loro tennis.

Dal 1984 (il primo anno con dati affidabili sull’età delle giocatrici), l’età media delle giocatrici arrivate al terzo turno (R32) di uno Slam è aumentata da 22.3 a 25.9 anni, cioè di quasi 4 anni, come mostrato dall’immagine 1 (nella versione originale, è possibile visualizzare i singoli valori puntando il mouse sul grafico, n.d.t.).

IMMAGINE 1 – Andamento in termini di età delle giocatrici che avanzano al terzo turno di uno Slam nel periodo dal 1984 al 2015

Si tratta di una dinamica d’invecchiamento profondamente influenzata dal dominio di Williams? Agli US Open 2015, sette giocatrici di almeno trent’anni, tra cui le sorelle Williams e un’ispirata Petra Cetkovska, hanno raggiunto il terzo turno, il numero più alto di accessi a questa fase del torneo negli ultimi 30 anni.

È il segnale di una tendenza più diffusa del dominio negli Slam delle giocatrici che hanno superato i trent’anni. L’immagine 2 mostra i risultati migliori ottenuti da giocatrici di almeno trent’anni tra il 1984 e il 2014. Prima del 2004, raggiungevano il secondo turno non più di 5 giocatrici di almeno trent’anni. Negli ultimi dieci anni, ci si è avvicinati a 10 giocatrici, con una tendenza che sembra essere rialzista.

IMMAGINE 2 – Miglior risultato ottenuto da giocatrici di almeno trent’anni in uno Slam nel periodo dal 1984 al 2014

Un cambiamento generalizzato del gioco

L’invecchiamento per gli uomini si è manifestato con simili modalità. Trovare un nutrito gruppo di giocatori “vecchi” in entrambi i circuiti che sopravvive ad alti livelli dai primi anni 2000 è segnale dell’essere in presenza di un cambiamento generalizzato nella tipologia di tennis giocato.

La diffusione del gioco da fondo ha reso durata e resistenza fattori critici di successo come non era mai accaduto, e una giocatrice raggiunge la maggiore efficacia in queste caratteristiche nell’età compresa tra venticinque e trentacinque anni.

Le giocatrici più giovani, specialmente al di sotto dei vent’anni, stanno subendo gli effetti di un’evoluzione che favorisce le giocatrici più mature. Considerando i risultati migliori raggiunti dalle giovanissime negli Slam degli ultimi 30 anni, come mostrato nell’immagine 3, si osserva una considerevole diminuzione della loro presenza.

Anzi, negli ultimi 5 anni, nessuna giocatrice con meno di vent’anni è andata oltre i quarti di finale di uno Slam (con l’eccezione di Jelena Ostapenko, Sloane Stephens, Eugenie Bouchard e Madison Keys, che hanno raggiunto almeno la semifinale, n.d.t.), e l’ultima vittoria risale al 2006 quando la diciannovenne Maria Sharapova ha vinto gli US Open (impresa poi replicata da Ostapenko, vincitrice al Roland Garros 2017, due giorni dopo aver compiuto vent’anni, n.d.t.).

IMMAGINE 3 – Miglior risultato ottenuto da giocatrici non ancora ventenni in uno Slam nel periodo dal 1984 al 2014

WTA – Aging with Greatness

La vittoria a Delray Beach è l’inizio di un brillante percorso per Tiafoe?

di Stephanie Kovalchik // OnTheT

Pubblicato il 3 marzo 2018 – Traduzione di Edoardo Salvati

Uno dei risultati più interessanti di febbraio è stato il trionfo del ventenne Francis Tiafoe a Delray Beach, il suo primo torneo sul circuito maggiore. Che percorso dobbiamo attenderci da Tiafoe dopo una vittoria così precoce?

Considerato un prodigio negli anni del circuito juniores, l’americano ha riacceso le aspettative sul suo futuro vincendo il torneo 250 di Delray Beach. Un’impresa degna di nota perché arrivata poco dopo il festeggiamento dei 20 anni e resa ancora più significativa per le vittorie contro Denis Shapovalov – un’altra stella nascente – e Hyeon Chung (semifinalista agli Australian Open 2018), oltre al numero 10 del mondo Juan Martin Del Potro. La conquista del titolo a Delray Beach contribuisce ad aumentare l’attenzione su Tiafoe, già oggetto di intenso scrutinio mediatico.

Con i due Master americani alle porte, mi domando se Tiafoe sia sulla rampa di lancio per raggiungere, nelle prossime settimane, risultati ancora più importanti.

Possiamo farci un’idea analizzando il percorso di altri giocatori che negli anni scorsi si sono messi in mostra prima di compiere 21 anni.

L’immagine 1 mostra i titoli 250 o 500 vinti dai giocatori non ancora ventunenni a partire dal 2010. Emerge che Tiafoe si è unito a un gruppo di giocatori esclusivo ma ben noto.

IMMAGINE 1 – Giocatori non ancora ventunenni che hanno vinto almeno un torneo 250 o 500 del circuito maggiore dal 2010

L’aspetto che risalta immediatamente è l’esiguo numero di titoli vinti da giocatori molto giovani prima del 2016. Si parla in realtà di due soli tornei, uno per Milos Raonic e uno per Bernard Tomic. Dal 2016, la situazione si è completamente ribaltata, con vittorie da parte di 5 giocatori che non avevano ancora compiuto 21 anni, tra tutti Alexander Zverev con quattro titoli.

Nel 2017 Zverev non solo ha vinto un 250 e un 500, ma si è aggiudicato due Master battendo Novak Djokovic in finale agli Internazionali d’Italia e Roger Federer in finale in Canada.

Pur essendoci andati vicini, Raonic e Kyrgios non sono ancora riusciti a vincere un Master. E lo stesso vale per Tiafoe: nonostante un risultato di rilievo, dovrà ripetersi una o due volte prima che lo si possa considerare un serio pretendente a qualcosa di ancora più grande.

Is Tiafoe’s win in Delray Beach only the beginning?

Le previsioni Elo migliorano includendo Future e Challenger?

di Stephanie Kovalchik // OnTheT

Pubblicato il 25 febbraio 2017 – Traduzione di Edoardo Salvati

Considerata la stratificazione di tornei esistente nel circuito professionistico, a partite dai Future 10K fino agli Slam, mi sono spesso domandata come le varie categorie dovrebbero essere inserite nelle previsioni Elo e se alcuni tornei dovrebbero essere completamente esclusi.

La metodologia standard Elo assegna ai giocatori una “spinta” maggiore (il 10% per l’esattezza) per partite vinte negli Slam, ma gestisce allo stesso modo le vittorie contro avversari simili in ogni altro evento.

La maggior parte delle valutazioni Elo che ho usato in passato teneva in considerazione risultati da tornei almeno 250 (o dagli International per le donne). Recentemente, ho aggiornato le valutazioni includendo tutti i tornei per professionisti, cercando di vedere che tipo di differenza questo comportasse ai fini delle previsioni per le categorie di torneo più prestigiose.

Con un campione dati di partite dal 1991 a oggi, includendo Future e Challenger la radice dell’errore quadratico medio (RMSE) per gli uomini mostra un cambiamento minimo: subisce una riduzione modesta per gli eventi di fascia più bassa e si assottiglia progressivamente all’aumentare dell’importanza del torneo (nella versione originale è possibile visualizzare i singoli valori puntando il mouse sul grafico, n.d.t.). 

IMMAGINE 1 – RSME Elo per fascia di torneo del circuito maschile

Perché gli eventi di fascia più bassa non hanno un impatto più sostanziale sulle previsioni?

Se mettiamo a confronto diretto le previsioni in presenza e in assenza di Future e Challenger, siamo di fronte a una correlazione positiva, che aumenta nelle fasce di torneo superiori.

Ci può essere molta varianza per alcuni intervalli delle valutazioni, ma questo effetto tende a maggiore ampiezza quando ci si avvicina a previsioni del 50%. Considerato il modesto miglioramento, sembra che, con previsioni che differiscono, l’inclusione dei risultati di tutte le partite sia più spesso sfavorevole.

IMMAGINE 2 – Previsioni di esito delle partite del circuito maschile con e senza eventi di fasce più basse

Le tendenze negli errori delle previsioni Elo per il circuito femminile mostrano risultati simili. Si osservano miglioramenti in larga parte negli eventi International quando viene incluso lo storico di tutti i tornei, mentre per le altre fasce si tratta di incrementi ridotti.

IMMAGINE 3 – RSME Elo per fascia di torneo del circuito femminile

Anche per le correlazioni tra i due tipi di metodi Elo si presentano tendenze simili a quanto visto per gli uomini. Sono correlazioni positive ma debolmente associate, specie nell’intervallo centrale delle previsioni.

IMMAGINE 4 – Previsioni di esito delle partite del circuito femminile con e senza eventi di fasce più basse

Perché la differenza tra i due metodi Elo non è più sostanziale?

Credo sia un problema di rappresentazione.

Se prendiamo il solo 2015, ci sono stati 3324 giocatori che hanno partecipato ad almeno un torneo Future. Tra questi, solo 18 hanno giocato partite di uno Slam, cioè lo 0.5%! Il numero di giocatori nel tabellone principale di un 250 o un Master è più alto – sono stati 73 – ma comunque uno smunto 2% dei giocatori dei Future.

Questo esempio sottolinea che alcune fasce di tornei sono una sorta di mini circuiti con molti giocatori al loro interno che però raramente si avventurano a giocare al di fuori.

Nel voler allargare le previsioni Elo includendo più risultati, il problema finisce per assomigliare sempre più alla difficoltà di previsione del livello di bravura delle squadre che partecipano al March Madness della NCAA.

Emerge quindi la sostanziale questione di come poter valutare accuratamente il livello di bravura di un giocatore nel momento in cui interi segmenti del circuito raramente giocano contro.

Does Including Futures and Challenger Events in Elo Improve Predictions?

Il punto sulla ricerca nella statistica sportiva dalla MIT Sloan 2018

di Stephanie Kovalchik // OnTheT

Pubblicato il 27 febbraio 2018 – Traduzione di Edoardo Salvati

Verranno presentate alcune delle ricerche più all’avanguardia nell’analisi statistica sportiva questa settimana alla MIT Sloan Sports Analytics Conference (SSAC). Cosa suggeriscono gli argomenti all’ordine del giorno riguardo allo stato dell’arte della ricerca quantitativa nello sport?

Arrivata alla dodicesima edizione e ospitata a Boston, la SSAC sembra poter crescere anno dopo anno e attrarre nomi sempre più grandi nello sport. Insieme a rappresentanti del mondo della pallacanestro come Sam Hinkie e John Hollinger, anche l’ex presidente degli Stati Uniti Barack Obama, come noto un grande appassionato di sport, è stato invitato a intervenire.   

Ci si chiede se, guardando la lista dei relatori, uno statistico dello sport possa davvero sperare di apprendere alcunché partecipando alla SSAC o se si tratti solo di un’occasione mondana per i nomi che contano nel settore. Nella mia esperienza, è un po’ entrambe le cose. Per chi è patito di statistiche, concentrare l’attenzione sulla parte del programma dedicato alla ricerca offre gli spunti più rilevanti.

La fitta elaborazione di numeri e dati della ricerca sportiva rappresenta una parte ridotta del programma della SSAC: verranno presentati infatti solo 8 lavori e 12 poster.

Tuttavia, grazie a un processo estremamente selettivo, si ha garanzia che il contenuto sia di altissima qualità e indicativo di cosa si stiano occupando le menti più brillanti nella ricerca sportiva (va detto, con una forte inclinazione per il mondo americano). 

Cosa mostrano quindi le ricerche presentate alla SSAC 2018 sull’analisi statistica sportiva?

Sport analizzati

Iniziamo con gli sport analizzati quest’anno dai lavori e dai poster. Con 2 lavori e 6 poster – il 50% dei poster – il basket è lo sport più trattato alla SSAC 2018. La maggior parte delle analisi sul basket si concentrano sulla NBA, con un progetto sulla NCAA (di Sailofsky, ‘Drafting Errors’), e un altro con dati ricavati da videocamere GoPro su competizioni amatoriali (di Bertasius et al., ‘Learning an Egocentric Basketball Ghosting Model’).

Per gli altri due sport, il football americano e il baseball, sono stati accettati 2 lavori ciascuno, a completamento di un triumvirato di sport di squadra americani tra i lavori finalisti della conferenza.

Al di fuori dagli sport americani più popolari, è il calcio (o Association Football) a essere il più rappresentato nelle ricerche, con un lavoro e 3 poster. Chiude la lista un progetto sugli eSports (di Maymin, ‘An Open-Sourced Optical Tracking and Advanced eSports Analytics Platform for League of Legends’), solamente il secondo, per quanto ne sappia, alla SSAC.

Il tennis e l’hockey su ghiaccio sono presenti con un poster a testa, anche se lo studio per la categoria hockey include una sottomissione anche per la categoria basket. Il lavoro sul tennis arriva dal gruppo a cui appartengo, il Game Insight Group (di Kovalchik e Reid, ‘Going Inside the Inner Game’).

Il mero conteggio potrebbe far pensare che sia il basket su cui il maggior numero di ricerche analitiche nello sport è incentrato. Considerando però la forte connotazione nordamericana dei ricercatori che hanno inviato i lavori e dei giudici che che li hanno esaminati, non necessariamente è un’immagine esaustiva delle tendenze più generali nell’analisi statistica sportiva nel mondo.

Temi trattati

In assenza di temi e parole chiave associate ai lavori presentati alla SSAC, la categorizzazione dell’argomento principale alla base di ogni ricerca si riduce a un’interpretazione soggettiva. Avendo letto tutti i lavori, credo che la ripartizione in tabella sia una rappresentazione ragionevole di ogni questione di fondo affrontata da ciascuno di essi. 

I temi che più si sono distinti tra i lavori presentati sono stati l’introduzione di nuovi indici di rendimento e la valutazione delle abilità e del talento degli atleti, ciascun tema con 2 lavori specifici. Un lavoro è stato dedicato all’identificazione degli stili di gioco e uno all’identificazione delle tendenze di gioco.

L’appellativo di inedito spetta a uno studio sulla previsione degli infortuni (di Ward et al., ‘Volume and Intensity are Important Training Related Factors in Injury’) e a uno sulla gestione quotidiana del portafoglio negli sport di fantasia [di Haugh e Singal, ‘How to Play Strategically in Fantasy Sports (and Win)’]‘.

Con un 50% di poster in più rispetto ai lavori, la diversità di argomento è maggiore in questo gruppo. Solo il tema della valutazione della strategia ha prevalso, grazie alle ricerche su calcio e basket di Bornn e co-autori.   

Ci sono stati 2 studi che hanno esaminato metodi per l’identificazione di tendenze di gioco, mentre altri 2 progetti tra i poster presentati hanno introdotto soluzioni per automatizzare il processo di analisi dei filmati o dei video con la prospettiva dell’atleta.

Con un solo poster ciascuno, alcuni dei temi più trattati in passato, come la valutazione delle scelte nel draft o l’introduzione di indici di prestazione, non hanno avuto lo stesso approfondimento. È curioso come nessuno studio per la SSAC 2018 abbia analizzato le problematiche relative alla programmazione dei calendari di gioco nello sport, nonostante l’argomento sia di estrema attualità.

Dati esaminati

La possibilità di esaminare alcuni dei dati più ambiti nello sport è spesso una caratteristica delle ricerche per la SSAC. Come categoria a sé stante, i dati derivanti da tracciatura (tracking data) sono stati i più utilizzati, comparendo, in una forma o nell’altra, in 12 dei 20 studi.

Il sistema con videocamere a copertura integrale del campo implementato da STATS SportsVU è quello che ha rilasciato più dati, presente in 4 degli studi. Pur rimanendo la tracciatura basata su videocamere il metodo più diffuso per raccogliere dati di posizione tra le ricerche della SSAC, è interessante vedere anche alternative come l’applicazione di sensori o la tracciatura ottica.

La maggior parte dei rimanenti lavori ha raccolto dati diretti, tra cui 2 delle ricerche sull’analisi manuale dei filmati e dei video con la prospettiva dell’atleta, con i campioni di dati strutturati in modo specifico per la ricerca in questione.

Tre studi (1 lavoro e 2 poster) hanno utilizzato dati punto-per-punto di pubblico dominio. Considerando che la maggior parte dei dati derivanti da tracciatura e di quelli raccolti direttamente sono privati, è incoraggiante sapere che esiste ancora la possibilità di produrre lavori inediti con dati disponibili a tutti che possano rientrare nella candidatura alla SSAC. 

Metodologie applicate

Dando uno sguardo alle metodologie applicate in ciascun lavoro e poster, emerge in modo forte e persistente un tema di fondo, quello delle reti neurali, che in una forma o nell’altra sono state utilizzate come strumento principale in 8 studi su 20. Due motivi rendono questa statistica meno sorprendente di quanto possa sembrare.

Da un lato il termine ‘rete neurale’, con il significato qui inteso, è piuttosto generico e ricomprende diversi modelli: convoluzionale, ricorrente, etc.

Inoltre, vista la popolarità delle reti neurali per la tracciatura di dati e dei video con prospettiva dell’atleta, la quantità di dati derivanti da tracciatura usati nei lavori per la SSAC rende più scontati gli esiti sull’analisi delle metodologie.    

Ero particolarmente interessata all’applicazione del raggruppamento per traiettoria (di Hobbs et al., ‘Quantifying the Value of Transitions’) e all’apprendimento per rinforzo (di Wang et al., ‘The Advantage of Doubling’), il primo perché sembra funzionale alla risoluzione di molte delle problematiche di tracciatura dati e il secondo perché si adatta in modo del tutto naturale alla valutazione delle strategie. Modelli formali bayesiani compaiono in 2 lavori, mentre altri 2 hanno stupito i giuridici della SSAC facendo uso della vecchia sana regressione lineare.

Riepilogo

Anche tenendo conto dell’enfasi sugli sporti americani, è interessante che un’iniziativa di fatto lanciata e portata avanti dal baseball si stia orientando sempre di più verso il basket (quantomeno per quello che si può vedere in termini di lavori alla SSAC).

Con una partecipazione così ridotta, molte delle tendenze in atto sono alimentate da un ristretto gruppo di ricercatori, guidati dai Bornns, Luceys e Goldsberrys del mondo analitico.

C’è chiaramente molto più da aggiungere alla storia dell’evoluzione dell’analisi sportiva di quanto una conferenza possa dire, ma è comunque un’occasione rivelatrice delle dinamiche in atto. 

Si se desidera approfondire uno qualsiasi dei lavori o poster che hanno partecipato alla SSAC 2018, sono liberamente scaricabili qui.

Research Highlights from 2018 MIT Sloan Analytics Conference

Tendenze negli errori delle previsioni Elo

di Stephanie Kovalchik // OnTheT

Pubblicato il 17 febbraio 2017 – Traduzione di Edoardo Salvati

In un precedente articolo, ho iniziato a esaminare le tendenze nella disposizione degli errori attraverso le previsioni Elo, cercando di capire come un vantaggio al servizio possa influenzare la capacità predittiva del sistema Elo.

Rendimento al servizio nei tornei e nelle partite

L’analisi delle frequenze di errore predittivo Elo rispetto al rendimento medio al servizio di un giocatore in un anno ha evidenziato la maggior parte degli scostamenti per i giocatori con un servizio medio.

Lo scopo dell’articolo di oggi è verificare il rendimento al servizio nei tornei e nelle partite per avere una maggiore comprensione della bontà delle previsioni Elo tra servizi differenti e per giocatori migliori o peggiori al servizio. 

Nella prima parte, analizzo il modo in cui variano gli errori predittivi Elo per le partite del circuito maschile (dal 1991 a oggi) con il rendimento medio al servizio nel torneo considerato, una misura indiretta della velocità della superficie.

L’immagine 1 mostra una correlazione negativa poiché gli errori predittivi Elo tendono a diminuire all’aumentare del vantaggio medio al servizio, cioè la velocità della superficie (nella versione originale è possibile visualizzare i singoli valori puntando il mouse sul grafico, n.d.t.). Un torneo con una percentuale media al servizio che scende fino al 57% ha una radice dell’errore quadratico medio (RMSE) di 0.48 rispetto allo 0.45 di un torneo con una media del 67%, cioè una riduzione di quasi il 10%. 

IMMAGINE 1 – Errore predittivo Elo e vantaggio al servizio del torneo

Il grafico suggerisce una tendenza generale di maggiore accuratezza predittiva nei tornei con più alta velocità della superficie, ma non segnala se, in uno specifico torneo, l’errore varia per giocatori migliori al servizio o peggiori. Cosa succede infatti se si è giocatori con un’ottimo servizio su una superficie veloce? O un giocatore dal servizio medio su una superficie lenta?

Che errore dovremmo attenderci per diversi giocatori al servizio in un torneo con – in media – lo stesso vantaggio al servizio?

L’immagine 2 mostra gli errori predittivi Elo rispetto al rendimento al servizio in una partita. Ogni riquadro corrisponde a una diversa velocità di superficie, misurata come rendimento medio al servizio in quel torneo. Per tornei che si posizionano nell’intervallo dal 59% al 68% di vantaggio al servizio – la percentuale tipica per il circuito maschile – si osserva una forma ad arcobaleno, a indicazione del fatto che l’errore predittivo è più basso per i giocatori peggiori al servizio e per quelli migliori. Elo è tratto in confusione dai giocatori dal servizio medio.

È interessante notare come i valori massimi di errore varino in funzione della velocità della superficie. Le linee verticali nei grafici rappresentano il vantaggio medio al servizio per ciascun torneo e si vede come – in generale – intersechino la curva nel punto più alto.

IMMAGINE 2 – Errore predittivo Elo rispetto al vantaggio al servizio del torneo e vantaggio al servizio del giocatore

Si ricava dalle analisi che Elo non ha solo problemi nelle previsioni per un giocatore dal servizio medio all’interno di una stagione, ma è anche una metodologia soggetta all’errore nel caso di quei giocatori che si posizionano più vicini al rendimento medio in uno specifico torneo, presumibilmente perché è più difficile distinguere i giocatori medi di quanto non lo sia distinguere quelli agli estremi.

Le valutazioni Elo standard nel tennis non considerano il rendimento al servizio del torneo o il rendimento al servizio del giocatore. Sono però entrambi fattori che determinano errori predittivi. La capacità Elo potrebbe essere quindi migliorata includendo, oltre alle vittorie, il rendimento al servizio.

Elo Prediction Accuracy and Court Pace

Note dal primo hackathon del tennis

di Stephanie Kovalchik // OnTheT

Pubblicato il 19 febbraio 2018 – Traduzione di Edoardo Salvati

Dopo la vittoria di Roger Federer agli Australian Open 2018, è tempo di conoscere i vincitori della prima competizione hackathon “Australian Open vs Intelligenza Artificiale”. Di seguito, esamino i modelli vincenti e mi soffermo sul loro significato per il futuro delle previsioni sull’esito dei punti nel tennis.

Un concorso per cervelli informatici

All’inizio dell’anno il Game Insight Group di Tennis Australia, la Federazione australiana, ha indetto un proprio concorso di tennis in cui a sfidarsi non erano colpi di racchetta, ma fantasia cerebrale e destrezza informatica: il primo hackhaton nella storia del tennis.

Sponsorizzato da crowdAnalytix, l’hackathon “Australian Open vs Intelligenza Artificiale” è stata la prima competizione nel tennis basata sull’uso di dati per risolvere una specifica richiesta, l’automatizzazione tramite algoritmo della categorizzazione dei colpi in vincenti, errori forzati e non forzati.

Questo grazie alla possibilità per i partecipanti di analizzare – a partire dal 2 gennaio 2018 – un campione di 10.000 punti delle partite degli Australian Open.

IMMAGINE 1 – Esiti predetti dei punti

Non si trattava solo di un contesto in cui ricercatori e programmatori erano motivati a esplorare i confini del contributo che l’intelligenza artificiale è in grado di dare al tennis, ma anche del primo esempio di condivisione pubblica di un enorme massa di dati contenenti informazioni puntuali sulla disposizione di giocatori e pallina in campo nel corso di un’intera partita. 

I modelli vincenti sono stati scelti alla fine delle tre settimane di competizione. Prima di vedere quali soluzioni hanno prevalso, osserviamo da vicino il campo partecipanti.

Fotografie dall’hackathon

Si sono iscritti 750 partecipanti da 55 paesi, che hanno concorso con un totale complessivo di 2731 soluzioni. Con 223 partecipanti è stata di gran lunga l’India la più rappresentata, seguita dagli Stati Uniti con 78 e dall’Australia con 51.

IMMAGINE 2 – Partecipanti all’hackathon “Australian Open vs Intelligenza Artificiale”

Per il 90% i partecipanti erano singole persone. I due codici di scrittura più comuni nelle soluzioni presentate sono stati R, leggermente più utilizzato, e Python.

I vincitori dell’hackathon

I vincitori finali sono stati selezionati sulla base del rendimento del modello rispetto a un campione di dati prova e in funzione della qualità del prospetto descrittivo dell’approccio metodologico.

Il campione di dati prova non è stato reso disponibile ai partecipanti per evitare il rischio di overfitting – cioè di eccessivo adattamento – e per fornire la valutazione più realistica possibile di come il modello si comporterebbe nell’applicazione concreta. 

Il primo premio è andato a Scott Sobel, che ha battuto gli altri quattro finalisti. Sobel è un programmatore americano che ha raggiunto un livello di accuratezza complessivo del 95% (98% per i vincenti, 89% per gli errori forzati e 95% per i non forzati). In altre parole, Sobel ha costruito un modello automatizzato che ci si attende concordi con i valutatori statistici di una partita sull’esito di 95 punti su 100.

È interessante notare come alcune caratteristiche della soluzione vincente sono comuni a quelle degli altri modelli finalisti, le più significative delle quali sono state:

  • analisi congiunta dei dati delle partite maschili e femminili per una maggiore elaborazione di calcolo
  • ampio ricorso all’ingegnerizzazione di variabili derivate
  • tecnica del potenziamento (boosting).

Nel suo modello, Sobel ha fatto ampio ricorso all’ingegnerizzazione di variabili derivate, includendone più di 1000 rispetto a quelle fornite in partenza. Lo sviluppo è stato portato avanti in R, con uso estremo della tecnica del potenziamento del gradiente (gradient boosting), così come fatto da tre dei cinque modelli finalisti.

Utilizzi futuri

L’hackathon “Australian Open vs Intelligenza Artificiale” ha prodotto uno strumento altamente sofisticato, che potrebbe essere il primo grande passo per automatizzare la categorizzazione degli esiti dei punti delle partite.

Ha contestualmente mostrato il valore potenziale dei dati nel tennis e degli incredibili risultati che si possono ottenere quando informazioni puntuali sono messe a disposizione di super appassionati di tennis con un talento per l’analisi statistica.

AO to AI Hackathon Winners Announced