La vittoria a Delray Beach è l’inizio di un brillante percorso per Tiafoe?

di Stephanie Kovalchik // OnTheT

Pubblicato il 3 marzo 2018 – Traduzione di Edoardo Salvati

Uno dei risultati più interessanti di febbraio è stato il trionfo del ventenne Francis Tiafoe a Delray Beach, il suo primo torneo sul circuito maggiore. Che percorso dobbiamo attenderci da Tiafoe dopo una vittoria così precoce?

Considerato un prodigio negli anni del circuito juniores, l’americano ha riacceso le aspettative sul suo futuro vincendo il torneo 250 di Delray Beach. Un’impresa degna di nota perché arrivata poco dopo il festeggiamento dei 20 anni e resa ancora più significativa per le vittorie contro Denis Shapovalov – un’altra stella nascente – e Hyeon Chung (semifinalista agli Australian Open 2018), oltre al numero 10 del mondo Juan Martin Del Potro. La conquista del titolo a Delray Beach contribuisce ad aumentare l’attenzione su Tiafoe, già oggetto di intenso scrutinio mediatico.

Con i due Master americani alle porte, mi domando se Tiafoe sia sulla rampa di lancio per raggiungere, nelle prossime settimane, risultati ancora più importanti.

Possiamo farci un’idea analizzando il percorso di altri giocatori che negli anni scorsi si sono messi in mostra prima di compiere 21 anni.

L’immagine 1 mostra i titoli 250 o 500 vinti dai giocatori non ancora ventunenni a partire dal 2010. Emerge che Tiafoe si è unito a un gruppo di giocatori esclusivo ma ben noto.

IMMAGINE 1 – Giocatori non ancora ventunenni che hanno vinto almeno un torneo 250 o 500 del circuito maggiore dal 2010

L’aspetto che risalta immediatamente è l’esiguo numero di titoli vinti da giocatori molto giovani prima del 2016. Si parla in realtà di due soli tornei, uno per Milos Raonic e uno per Bernard Tomic. Dal 2016, la situazione si è completamente ribaltata, con vittorie da parte di 5 giocatori che non avevano ancora compiuto 21 anni, tra tutti Alexander Zverev con quattro titoli.

Nel 2017 Zverev non solo ha vinto un 250 e un 500, ma si è aggiudicato due Master battendo Novak Djokovic in finale agli Internazionali d’Italia e Roger Federer in finale in Canada.

Pur essendoci andati vicini, Raonic e Kyrgios non sono ancora riusciti a vincere un Master. E lo stesso vale per Tiafoe: nonostante un risultato di rilievo, dovrà ripetersi una o due volte prima che lo si possa considerare un serio pretendente a qualcosa di ancora più grande.

Is Tiafoe’s win in Delray Beach only the beginning?

Il caso di Schwartzman, di Verdasco e delle partite consecutive contro lo stesso avversario

di Jeff Sackmann // TennisAbstract

Pubblicato l’1 marzo 2018 – Traduzione di Edoardo Salvati

Un po’ troppo spesso Fernando Verdasco ha incontrato sul suo cammino Diego Schwartzman negli ultimi giorni. Prima nella finale del torneo 500 sulla terra battuta di Rio De Janeiro, in cui Schwartzman ha vinto in due set. Poi entrambi sono immediatamente partiti per Acapulco – di nuovo un 500 ma questa volta sul cemento – per giocare contro nel primo turno. Verdasco ha perso ancora, raccogliendo solo un game in più.

Un evento raro, meno per Verdasco

La probabilità di uno scenario in cui gli stessi due giocatori si affrontano in finale e subito dopo al primo turno è abbastanza rara, e il cambio di superficie la rende ancora più improbabile.

Da un lato, il circuito non si sposta da un tipo di campo a un altro molto frequentemente e, quando questo accade, i giocatori non seguono spesso lo stesso calendario.

Dall’altro lato, due giocatori che si ritrovano in finale sono solitamente abbastanza forti da ricevere una testa di serie al torneo successivo, rendendo impossibile una partita tra loro al primo turno. Per assistere a due partite di fila come quelle tra Schwartzman e Verdasco c’è bisogno di un allineamento di calendari, e parecchio aiuto dalla sorte.

Come sottolineato da Carl Bialik, non è la prima volta che Verdasco gioca partite di fila a febbraio contro lo stesso avversario, anche se in precedenza sulla medesima superficie.  Gli è capitato nel 2011, perdendo nella finale di San Jose e poi nel primo turno a Memphis da Milos Raonic. Incredibilmente, restringendo la ricerca, il nome di Verdasco compare altre due volte.

Nel 2009, perse da Radek Stepanek nella finale di Brisbane per poi vincere nel primo turno degli Australian Open, il suo torneo successivo (per quello che vale, Stepanek giocò nel frattempo anche a Sydney).

Cinque anni dopo, Verdasco ha vinto il torneo di Houston nel 2014 contro Nicolas Almagro, e i due si sono ritrovati ai sedicesimi di Barcellona, con la vittoria di Almagro (anche in questo caso si trattava di tornei di fila per Verdasco, mentre Almagro era andato a giocare qualche partita anche al Monte Carlo Masters).

Un’occorrenza mai verificatasi

Per tornare alla questione principale, nei cinquant’anni dell’era Open maschile qualsiasi cosa è praticamente successa almeno una volta. Ma questa precisa occorrenza – due giocatori che giocano in finale e poi la settimana dopo al primo turno su una superficie diversa – è una novità. Se si allentano però le limitazioni imposte nei parametri, troviamo altri episodi verificatisi in passato.

Dal 1970, ci sono state circa 3750 finali del circuito maggiore. Quasi un terzo delle volte, i due finalisti hanno giocato contro almeno un’altra volta nel corso della stagione.

Di quelle coppie, 197 si sono poi affrontate nel torneo immediatamente successivo e in altre 62 di quelle finali, uno dei giocatori ha giocato contro l’altro nel suo torneo successivo (mentre l’altro ha giocato uno o più tornei nel mezzo, come per Almagro e Stepanek).

Molte delle 197 coppie hanno rigiocato la settimana dopo, anche se è stato più comune che ci fosse una settimana di distanza tra le due partite.

Delle 197 coppie di finalisti, 25 sono state sorteggiate nel tabellone del torneo successivo a partire dai trentaduesimi o dai turni precedenti, anche se non si è trattato di sole partite di primo turno (come per Andy Murray e Philipp Kohlschreiber nel 2015 che, dopo aver giocato la finale del torneo di Monaco di Baviera, hanno rigiocato nel primo turno di Murray al Madrid Masters la settimana successiva, ma non in quello di Kohlschreiber, visto che Murray aveva avuto un bye).

Il turno più frequente in cui due finalisti hanno giocato di nuovo è un’altra finale, circostanza che si è verificata circa un terzo delle volte.

Utilizzando un criterio diverso, troviamo che circa un quinto delle 197 coppie – 39 giocatori – hanno giocato la seconda partita su una superficie diversa dalla prima. Solo poche volte si è trattato di cemento e terra battuta.

Un numero eccessivamente elevato di queste partite si è giocato negli anni ’70 e nei primi anni ’80, quando il tappeto era una superficie canonica per i tornei del circuito maggiore, tale da comparire in questi risultati nel passaggio da cemento a tappeto o viceversa molto più frequentemente del binomio cemento-terra o terra-cemento.

Per ciascuna coppia di superfici di quelle 39 partite, solo tre si sono verificate nei trentaduesimi di finale e nessuna nei sessantaquattresimi o nel primo turno di uno Slam.

Apetti in comune

I tre precedenti dello stesso traguardo raggiunto da Schwartzman hanno tra loro diversi aspetti in comune. Come per Schwartzman, il medesimo giocatore ha vinto entrambe le partite, ma per gli altri due la differenza sta nel fatto che in entrambi c’è stata una settimana di pausa tra i due tornei e uno di questi è stato giocato sul tappeto.

Il primo risultato simile è stato messo a segno da Tom Gorman, che ha vinto partite consecutive contro Bob Carmichael nel 1976, dalla finale di Sacramento (sul tappeto) al primo turno a Las Vegas (sul cemento).

Ci sono state poi le due vittorie di Martin Jaite contro Javier Sanchez nel 1989: dopo il trionfo nella finale di San Paolo (sul tappeto), Jaite ha vinto il primo turno contro lo stesso avversario, ma sul cemento.

E infine Fernando Gonzalez, che ha sconfitto Jose Acasuso due volte di fila nel 2002, nella finale di Palermo sulla terra e poi una decina di giorni più tardi nel primo turno a Lione, sul tappeto.

Come Schwartzman e i tre predecessori che più sono andati vicini al suo risultato, la maggior parte dei finalisti è riuscita a difendere la vittoria. Nel caso di cambio di superficie, lo stesso giocatore ha vinto entrambe le partite 26 volte su 39.

Quando le partite si sono giocate sulla stessa superficie, il vincitore del torneo ha vinto anche la partita seguente 101 volte su 158. Non ci è riuscito Yuichi Sugita, nell’occasione più recente: dopo aver battuto Adrian Mannarino conquistando il suo primo torneo sul circuito maggiore l’estate scorsa, ha rigiocato con Mannarino nel secondo turno di Wimbledon, perdendo però la partita.

In un’eccezione con nomi più altisonanti, Andre Agassi ha battuto Petr Korda nella finale di Washington nel 1991, per poi perdere contro Korda nella prima partita la settimana successiva al Canada Masters (non era però la prima partita di Korda, non avendo avuto un bye come Agassi. Ma è stato uno sforzo ricompensato con la finale di quel torneo).

Altri cinquant’anni?

Potremmo dover aspettare cinquant’anni prima che un’identica circostanza come quella di Schwartzman si verifichi di nuovo. Ma se abbassiamo anche di poco le pretese abbiamo subito una nuova accoppiata, quella tra Lucas Pouille e Karen Khachanov, che hanno giocato la finale di Marsiglia in cui ha vinto Khachanov per rigiocare nel secondo turno di Dubai tre giorni dopo, in cui ha prevalso Pouille (che ha poi raggiunto la finale).

A prescindere dallo standard prescelto, c’è un giocatore che vorrebbe aver evitato partite consecutive contro lo stesso avversario: Verdasco.

Trivia: Deja Vu All Over Again

Dominic Thiem, specialista vecchia scuola della terra battuta

di Jeff Sackmann // TennisAbstract

Pubblicato il 24 febbraio 2018 – Traduzione di Edoardo Salvati

Con un calendario pesantemente orientato ai tornei sul cemento, non sono rimasti molti specialisti della terra battuta. I migliori tra quelli che primeggiano sulla terra sono costretti ad adattare il loro gioco anche ai campi più veloci, in cemento o erba.

Oltre ai dieci Roland Garros, Rafael Nadal ha vinto altri sei Slam, mentre sia Pablo Carreno Busta che Diego Schwartzman hanno vinto tornei del circuito maggiore sul cemento. Nel circuito Challenger, si riesce a giocare quasi esclusivamente sulla terra, ma è praticamente impossibile rientrare tra i giocatori che abitualmente frequentano i tornei ATP senza aver vinto qualche partita sul veloce.

Il rendimento di Thiem è tanto scarso sul cemento quanto forte sulla terra

Dominic Thiem regge il confronto sulle superfici veloci ma, più di qualsiasi altro giocatore del circuito, è decisamente più forte sulla terra. Nelle ultime 52 settimane ha vinto 25 partite su 31 sulla terra, rispetto a 24 su 42 sulle altre superfici.

Contro i primi 10 della classifica, il suo è un record rispettabile di 7 vinte e 9 perse sulla terra (ancora più valido se si considera che in 12 di quelle partite ha dovuto giocare contro i Fantastici Quattro, di cui sette contro Nadal, e due delle altre contro Stanislas Wawrinka), contro un record estremamente negativo di 2 vinte e 15 perse sul cemento.

Se, come ho fatto io, vi siete abituati all’idea di pensare a Thiem come un solido ma non particolarmente minaccioso membro dei primi 10, non avete probabilmente realizzato quanto sia scarso il suo rendimento sul cemento o quanto sia diventato forte sulla terra.

Guardando solo ai risultati sulla terra, Thiem è il secondo miglior giocatore. Stando alle valutazioni Elo specifiche per la terra, Thiem supera tutti tranne Nadal e Novak Djokovic, la cui valutazione riflette il livello raggiunto nell’ultima occasione in cui ha giocato e che molto probabilmente stimerà in eccesso la sua bravura quando rientrerà dall’infortunio.

Thiem insegue Nadal di circa 180 punti, 2410 contro 2235, che significa che in uno scontro diretto ci si attende che Thiem vinca solo il 26% delle volte. Quando però mettiamo Thiem a confronto con il resto del gruppo ed escludiamo i malandati Djokovic, Wawrinka, Andy Murray e Kei Nishikori – insieme a Roger Federer che non gioca più sulla terra – la sua posizione appare molto più favorevole. Il giocatore più bravo sulla terra dopo Thiem, Alexander Zverev, è dietro di circa lo stesso margine, 170 punti.

Contrapposizione Elo di Thiem tra terra e cemento

Una valutazione Elo sulla terra di 2200 è indicazione affidabile di uno status elitario nel tennis. Nell’era Open, solo 29 giocatori hanno raggiunto quel livello, 22 dei quali possono vantare almeno un titolo dello Slam. Tra i giocatori in attività, solo i Fantastici Quattro, Nishikori, Juan Martin Del Potro, David Ferrer e Thiem appartengono a quel club.

L’aspetto per cui si distingue Thiem è la contrapposizione tra i suoi successi sulla terra e la mediocrità sul cemento. Dopo aver vinto a Buenos Aires nel 2017, la sua valutazione Elo specifica per la terra era di 2234, rispetto a una valutazione per il cemento di 1869.

La prima, come visto, vale un terzo posto complessivo, secondo se si escludono i risultati di Djokovic sempre più datati; la valutazione di 1869 lo mette al 31esimo posto del circuito, dietro a Schwartzman, Damir Dzumhur e Fabio Fognini.

Nessun giocatore in attività è oggi uno specialista della terra – nel senso di avere risultati su quella superficie di gran lunga migliori di quelli sul cemento – di quanto non lo sia Thiem (ci sono differenze ancora più accentuate tra l’erba e il cemento o la terra, ma la brevità della stagione sull’erba comporta che molte di quelle differenze siano basate solo su campioni di dati di dimensioni ridotte).

Il rapporto tra la valutazione Elo di Thiem sulla terra e quella sul cemento – di nuovo 2334 e 1869 punti – è di 1.20, ben al di sopra di quella di tutti gli altri giocatori in attività con una valutazione Elo sulla terra di almeno 1800. Al secondo posto troviamo Simone Bolelli, con 1.12, e una manciata di giocatori, tra cui Nadal, ottengono 1.10. La tabella riepiloga i primi 20 giocatori.

Giocatore      Elo terra   Elo cemento  Indice
Thiem          2234        1869         1.20
Bolelli        1834        1634         1.12
Nadal          2410        2182         1.10
Ramos          1873        1696         1.10
Delbonis       1869        1696         1.10
Carreno Busta  1921        1746         1.10
Cuevas         1873        1709         1.10
Almagro        1903        1755         1.08
Khachanov      1838        1701         1.08
Mayer          1878        1741         1.08
Bedene         1826        1695         1.08
Ferrer         2017        1894         1.07
Kohlschreiber  1951        1845         1.06
Wawrinka       2138        2027         1.06
Klizan         1800        1709         1.05
Pella          1825        1744         1.05
Coric          1830        1760         1.04
Verdasco       1863        1794         1.04
A. Zverev      2067        1997         1.04
Lopez          1830        1772         1.03

Valutazioni a senso unico più frequenti in passato

Alcuni decenni fa, quando i giocatori di vertice potevano dedicare più di due o tre mesi all’anno a fare incetta di punti sulla terra, valutazioni così a senso unico erano un po’ più frequenti.

Dei 29 giocatori che nella storia hanno superato una valutazione Elo sulla terra di 2200, 11 di loro in un certo momento hanno avuto un indice di almeno 1.20, tra cui Nadal, con una valutazione sulla terra all’inizio del 2008 del 20% più alta di quella sul cemento, e Sergi Bruguera, che ha raggiunto un valore massimo di 1.29.

Anche altri quattro vincitori di Slam – Bjorn Borg, Juan Carlos Ferrero, Thomas Muster e Guillermo Vilas – sono andati oltre l’1.20 nella loro carriera. Per avere un metro di paragone della specializzazione di Thiem, consideriamo che il valore più alto di Guillermo Coria è stato 1.19 e quello di Gustavo Kuerten 1.16.

Anche Ferrer, l’epitome dello specialista sulla terra battuta per una generazione di appassionati, non è mai andato oltre l’1.15 una volta che la sua valutazione Elo specifica ha superato la soglia dei 2000 punti.

Thiem ha tempo per acquisire dimestichezza sul cemento

La categoria che descrive perfettamente il rendimento di Thiem – quella degli specialisti sulla terra che invariabilmente si posizionano a metà classifica sul cemento – in larga parte fa riferimento a un’epoca precedente.

Se abbassiamo lo standard Elo di eccellenza sulla terra a un massimo in carriera di 2000 punti, equivalente al momento a circa la 15esima posizione sul circuito, otteniamo un gruppo di 145 giocatori dell’era Open.

Di questi, 65 (il 45%) sono stati a un certo punto così specializzati quanto Thiem ora, con un indice di valutazione terra-cemento di almeno 1.20. Ma solo cinque sono giocatori ancora in attività (Nadal, Thiem, Fognini, Pablo Cuevas, and Nicolas Almagro), e ben due terzi giocavano prima del 1995.

In alcune circostanze, giocatori con risultati sostanzialmente superiori sulla terra imparano a essere competitivi ad alto livello anche su superfici più veloci. Thiem ha 24 anni, e Nadal aveva un indice di specializzazione simile quando era ventiduenne. Ci sono stati altri grandi a godere di successi sulla terra all’inizio della carriera e che poi hanno acquisito dimestichezza anche sul cemento.

A questo riguardo, Thiem potrebbe aver bisogno di altro tempo prima di esplodere. Per quanto improbabile, nel momento in cui Nadal si ritirerà o perderà in competitività (se mai dovesse accadere), Thiem è destinato ad accumulare titoli ed emergere come il più forte giocatore sulla terra della sua generazione, a prescindere da un effettivo miglioramento del suo gioco sul cemento.

Dominic Thiem, Old-School Clay Court Specialist

Le previsioni Elo migliorano includendo Future e Challenger?

di Stephanie Kovalchik // OnTheT

Pubblicato il 25 febbraio 2017 – Traduzione di Edoardo Salvati

Considerata la stratificazione di tornei esistente nel circuito professionistico, a partite dai Future 10K fino agli Slam, mi sono spesso domandata come le varie categorie dovrebbero essere inserite nelle previsioni Elo e se alcuni tornei dovrebbero essere completamente esclusi.

La metodologia standard Elo assegna ai giocatori una “spinta” maggiore (il 10% per l’esattezza) per partite vinte negli Slam, ma gestisce allo stesso modo le vittorie contro avversari simili in ogni altro evento.

La maggior parte delle valutazioni Elo che ho usato in passato teneva in considerazione risultati da tornei almeno 250 (o dagli International per le donne). Recentemente, ho aggiornato le valutazioni includendo tutti i tornei per professionisti, cercando di vedere che tipo di differenza questo comportasse ai fini delle previsioni per le categorie di torneo più prestigiose.

Con un campione dati di partite dal 1991 a oggi, includendo Future e Challenger la radice dell’errore quadratico medio (RMSE) per gli uomini mostra un cambiamento minimo: subisce una riduzione modesta per gli eventi di fascia più bassa e si assottiglia progressivamente all’aumentare dell’importanza del torneo (nella versione originale è possibile visualizzare i singoli valori puntando il mouse sul grafico, n.d.t.). 

IMMAGINE 1 – RSME Elo per fascia di torneo del circuito maschile

Perché gli eventi di fascia più bassa non hanno un impatto più sostanziale sulle previsioni?

Se mettiamo a confronto diretto le previsioni in presenza e in assenza di Future e Challenger, siamo di fronte a una correlazione positiva, che aumenta nelle fasce di torneo superiori.

Ci può essere molta varianza per alcuni intervalli delle valutazioni, ma questo effetto tende a maggiore ampiezza quando ci si avvicina a previsioni del 50%. Considerato il modesto miglioramento, sembra che, con previsioni che differiscono, l’inclusione dei risultati di tutte le partite sia più spesso sfavorevole.

IMMAGINE 2 – Previsioni di esito delle partite del circuito maschile con e senza eventi di fasce più basse

Le tendenze negli errori delle previsioni Elo per il circuito femminile mostrano risultati simili. Si osservano miglioramenti in larga parte negli eventi International quando viene incluso lo storico di tutti i tornei, mentre per le altre fasce si tratta di incrementi ridotti.

IMMAGINE 3 – RSME Elo per fascia di torneo del circuito femminile

Anche per le correlazioni tra i due tipi di metodi Elo si presentano tendenze simili a quanto visto per gli uomini. Sono correlazioni positive ma debolmente associate, specie nell’intervallo centrale delle previsioni.

IMMAGINE 4 – Previsioni di esito delle partite del circuito femminile con e senza eventi di fasce più basse

Perché la differenza tra i due metodi Elo non è più sostanziale?

Credo sia un problema di rappresentazione.

Se prendiamo il solo 2015, ci sono stati 3324 giocatori che hanno partecipato ad almeno un torneo Future. Tra questi, solo 18 hanno giocato partite di uno Slam, cioè lo 0.5%! Il numero di giocatori nel tabellone principale di un 250 o un Master è più alto – sono stati 73 – ma comunque uno smunto 2% dei giocatori dei Future.

Questo esempio sottolinea che alcune fasce di tornei sono una sorta di mini circuiti con molti giocatori al loro interno che però raramente si avventurano a giocare al di fuori.

Nel voler allargare le previsioni Elo includendo più risultati, il problema finisce per assomigliare sempre più alla difficoltà di previsione del livello di bravura delle squadre che partecipano al March Madness della NCAA.

Emerge quindi la sostanziale questione di come poter valutare accuratamente il livello di bravura di un giocatore nel momento in cui interi segmenti del circuito raramente giocano contro.

Does Including Futures and Challenger Events in Elo Improve Predictions?

Il punto sulla ricerca nella statistica sportiva dalla MIT Sloan 2018

di Stephanie Kovalchik // OnTheT

Pubblicato il 27 febbraio 2018 – Traduzione di Edoardo Salvati

Verranno presentate alcune delle ricerche più all’avanguardia nell’analisi statistica sportiva questa settimana alla MIT Sloan Sports Analytics Conference (SSAC). Cosa suggeriscono gli argomenti all’ordine del giorno riguardo allo stato dell’arte della ricerca quantitativa nello sport?

Arrivata alla dodicesima edizione e ospitata a Boston, la SSAC sembra poter crescere anno dopo anno e attrarre nomi sempre più grandi nello sport. Insieme a rappresentanti del mondo della pallacanestro come Sam Hinkie e John Hollinger, anche l’ex presidente degli Stati Uniti Barack Obama, come noto un grande appassionato di sport, è stato invitato a intervenire.   

Ci si chiede se, guardando la lista dei relatori, uno statistico dello sport possa davvero sperare di apprendere alcunché partecipando alla SSAC o se si tratti solo di un’occasione mondana per i nomi che contano nel settore. Nella mia esperienza, è un po’ entrambe le cose. Per chi è patito di statistiche, concentrare l’attenzione sulla parte del programma dedicato alla ricerca offre gli spunti più rilevanti.

La fitta elaborazione di numeri e dati della ricerca sportiva rappresenta una parte ridotta del programma della SSAC: verranno presentati infatti solo 8 lavori e 12 poster.

Tuttavia, grazie a un processo estremamente selettivo, si ha garanzia che il contenuto sia di altissima qualità e indicativo di cosa si stiano occupando le menti più brillanti nella ricerca sportiva (va detto, con una forte inclinazione per il mondo americano). 

Cosa mostrano quindi le ricerche presentate alla SSAC 2018 sull’analisi statistica sportiva?

Sport analizzati

Iniziamo con gli sport analizzati quest’anno dai lavori e dai poster. Con 2 lavori e 6 poster – il 50% dei poster – il basket è lo sport più trattato alla SSAC 2018. La maggior parte delle analisi sul basket si concentrano sulla NBA, con un progetto sulla NCAA (di Sailofsky, ‘Drafting Errors’), e un altro con dati ricavati da videocamere GoPro su competizioni amatoriali (di Bertasius et al., ‘Learning an Egocentric Basketball Ghosting Model’).

Per gli altri due sport, il football americano e il baseball, sono stati accettati 2 lavori ciascuno, a completamento di un triumvirato di sport di squadra americani tra i lavori finalisti della conferenza.

Al di fuori dagli sport americani più popolari, è il calcio (o Association Football) a essere il più rappresentato nelle ricerche, con un lavoro e 3 poster. Chiude la lista un progetto sugli eSports (di Maymin, ‘An Open-Sourced Optical Tracking and Advanced eSports Analytics Platform for League of Legends’), solamente il secondo, per quanto ne sappia, alla SSAC.

Il tennis e l’hockey su ghiaccio sono presenti con un poster a testa, anche se lo studio per la categoria hockey include una sottomissione anche per la categoria basket. Il lavoro sul tennis arriva dal gruppo a cui appartengo, il Game Insight Group (di Kovalchik e Reid, ‘Going Inside the Inner Game’).

Il mero conteggio potrebbe far pensare che sia il basket su cui il maggior numero di ricerche analitiche nello sport è incentrato. Considerando però la forte connotazione nordamericana dei ricercatori che hanno inviato i lavori e dei giudici che che li hanno esaminati, non necessariamente è un’immagine esaustiva delle tendenze più generali nell’analisi statistica sportiva nel mondo.

Temi trattati

In assenza di temi e parole chiave associate ai lavori presentati alla SSAC, la categorizzazione dell’argomento principale alla base di ogni ricerca si riduce a un’interpretazione soggettiva. Avendo letto tutti i lavori, credo che la ripartizione in tabella sia una rappresentazione ragionevole di ogni questione di fondo affrontata da ciascuno di essi. 

I temi che più si sono distinti tra i lavori presentati sono stati l’introduzione di nuovi indici di rendimento e la valutazione delle abilità e del talento degli atleti, ciascun tema con 2 lavori specifici. Un lavoro è stato dedicato all’identificazione degli stili di gioco e uno all’identificazione delle tendenze di gioco.

L’appellativo di inedito spetta a uno studio sulla previsione degli infortuni (di Ward et al., ‘Volume and Intensity are Important Training Related Factors in Injury’) e a uno sulla gestione quotidiana del portafoglio negli sport di fantasia [di Haugh e Singal, ‘How to Play Strategically in Fantasy Sports (and Win)’]‘.

Con un 50% di poster in più rispetto ai lavori, la diversità di argomento è maggiore in questo gruppo. Solo il tema della valutazione della strategia ha prevalso, grazie alle ricerche su calcio e basket di Bornn e co-autori.   

Ci sono stati 2 studi che hanno esaminato metodi per l’identificazione di tendenze di gioco, mentre altri 2 progetti tra i poster presentati hanno introdotto soluzioni per automatizzare il processo di analisi dei filmati o dei video con la prospettiva dell’atleta.

Con un solo poster ciascuno, alcuni dei temi più trattati in passato, come la valutazione delle scelte nel draft o l’introduzione di indici di prestazione, non hanno avuto lo stesso approfondimento. È curioso come nessuno studio per la SSAC 2018 abbia analizzato le problematiche relative alla programmazione dei calendari di gioco nello sport, nonostante l’argomento sia di estrema attualità.

Dati esaminati

La possibilità di esaminare alcuni dei dati più ambiti nello sport è spesso una caratteristica delle ricerche per la SSAC. Come categoria a sé stante, i dati derivanti da tracciatura (tracking data) sono stati i più utilizzati, comparendo, in una forma o nell’altra, in 12 dei 20 studi.

Il sistema con videocamere a copertura integrale del campo implementato da STATS SportsVU è quello che ha rilasciato più dati, presente in 4 degli studi. Pur rimanendo la tracciatura basata su videocamere il metodo più diffuso per raccogliere dati di posizione tra le ricerche della SSAC, è interessante vedere anche alternative come l’applicazione di sensori o la tracciatura ottica.

La maggior parte dei rimanenti lavori ha raccolto dati diretti, tra cui 2 delle ricerche sull’analisi manuale dei filmati e dei video con la prospettiva dell’atleta, con i campioni di dati strutturati in modo specifico per la ricerca in questione.

Tre studi (1 lavoro e 2 poster) hanno utilizzato dati punto-per-punto di pubblico dominio. Considerando che la maggior parte dei dati derivanti da tracciatura e di quelli raccolti direttamente sono privati, è incoraggiante sapere che esiste ancora la possibilità di produrre lavori inediti con dati disponibili a tutti che possano rientrare nella candidatura alla SSAC. 

Metodologie applicate

Dando uno sguardo alle metodologie applicate in ciascun lavoro e poster, emerge in modo forte e persistente un tema di fondo, quello delle reti neurali, che in una forma o nell’altra sono state utilizzate come strumento principale in 8 studi su 20. Due motivi rendono questa statistica meno sorprendente di quanto possa sembrare.

Da un lato il termine ‘rete neurale’, con il significato qui inteso, è piuttosto generico e ricomprende diversi modelli: convoluzionale, ricorrente, etc.

Inoltre, vista la popolarità delle reti neurali per la tracciatura di dati e dei video con prospettiva dell’atleta, la quantità di dati derivanti da tracciatura usati nei lavori per la SSAC rende più scontati gli esiti sull’analisi delle metodologie.    

Ero particolarmente interessata all’applicazione del raggruppamento per traiettoria (di Hobbs et al., ‘Quantifying the Value of Transitions’) e all’apprendimento per rinforzo (di Wang et al., ‘The Advantage of Doubling’), il primo perché sembra funzionale alla risoluzione di molte delle problematiche di tracciatura dati e il secondo perché si adatta in modo del tutto naturale alla valutazione delle strategie. Modelli formali bayesiani compaiono in 2 lavori, mentre altri 2 hanno stupito i giuridici della SSAC facendo uso della vecchia sana regressione lineare.

Riepilogo

Anche tenendo conto dell’enfasi sugli sporti americani, è interessante che un’iniziativa di fatto lanciata e portata avanti dal baseball si stia orientando sempre di più verso il basket (quantomeno per quello che si può vedere in termini di lavori alla SSAC).

Con una partecipazione così ridotta, molte delle tendenze in atto sono alimentate da un ristretto gruppo di ricercatori, guidati dai Bornns, Luceys e Goldsberrys del mondo analitico.

C’è chiaramente molto più da aggiungere alla storia dell’evoluzione dell’analisi sportiva di quanto una conferenza possa dire, ma è comunque un’occasione rivelatrice delle dinamiche in atto. 

Si se desidera approfondire uno qualsiasi dei lavori o poster che hanno partecipato alla SSAC 2018, sono liberamente scaricabili qui.

Research Highlights from 2018 MIT Sloan Analytics Conference

Il gioco alla risposta di Schwartzman è ancora meglio di quanto pensassi

di Jeff Sackmann // TennisAbstract

Pubblicato il 26 aprile 2017 – Traduzione di Edoardo Salvati

Diego Schwartzman è uno dei giocatori più inusuali del circuito maschile. Con un’altezza inferiore pure a quella di David Ferrer, non avrà mai un’arma vincente nel servizio, caratteristica che – per essere competitivo – lo costringe a dover neutralizzare la battuta dei suoi avversari e vincere gli scambi da fondo.

Arrivato al numero 34 della classifica di questa settimana (raggiungendo da lunedì 26 febbraio 2018 il numero 18, massimo in carriera dopo la vittoria a Rio De Janeiro, torneo in cui la media percentuale dei punti vinti alla risposta nelle cinque partite giocate è stata del 52.28%, n.d.t.) e al numero 35 delle valutazioni Elo, ha dimostrato più volte di poter applicare questa strategia contro giocatori molto forti.

Grazie allo ATP stats leaderboard su TennisAbstract, è possibile effettuare una veloce comparazione del suo gioco alla risposta con quello dei giocatori di vertice.

Risultati da leggere con cautela

Nelle ultime 52 settimane del circuito maggiore (fino al Monte Carlo Masters 2017), è al terzo posto con un 42.3% di punti vinti alla risposta, dietro solamente a Andy Murray e Novak Djokovic.

Riesce a essere particolarmente efficace contro le seconde di servizio, vincendo il 56.5% dei punti sulla seconda, meglio di qualsiasi altro giocatore. Ha ottenuto il break nel 31.8% dei game alla risposta, di nuovo al terzo posto, questa volta dietro Andy Murray e Rafael Nadal.

I risultati del leaderboard vanno però letti con cautela. Nell’ultimo anno, gli avversari di Murray sono stati nettamente superiori a quelli di Schwartzman, con una classifica mediana di 24 e una classifica media di 41.5. Per Schwartzman i numeri sono stati rispettivamente 45.5 e 54.8. Murray, Djokovic e Nadal sono giocatori molto più completi di Schwartzman, raggiungendo regolarmente i turni finali, nei quali la competizione si fa più serrata.

Il livello degli avversari è uno degli aspetti più controversi dell’analisi statistica del tennis, per cui ancora non esiste soluzione. Se vogliamo confrontare Murray e Djokovic, gli avversari non sono un fattore così rilevante. Nel corso di mesi, la fortuna può arridere l’uno o l’altro ma, nel lungo periodo, i due migliori giocatori si troveranno ad affrontare avversari all’incirca della stessa qualità.

Se però ampliamo il raggio di azione a giocatori come Schwartzman – o anche a uno dei primi 10 come Dominic Thiem – non possiamo più dare per scontato che la qualità si livelli. Prendendo a prestito dalla terminologia di altri sport, l’ATP ha un calendario estremamente sbilanciato, e sono sempre i giocatori migliori a subirne le conseguenze.

Utilizzare la qualità degli avversari come correttivo è una chiave anche per comprendere l’evoluzione nel tempo di uno specifico giocatore. Se i risultati di un giocatore migliorano, si troverà ad affrontare una competizione più agguerrita, come sarà per Schwartzman nei tornei Master sulla terra battuta – a cui parteciperà per la prima volta di fila – della stagione 2017.

Se i suoi numeri alla risposta avranno un calo, sarà perché sta in effetti giocando peggio o perché semplicemente ha mantenuto il livello precedente ma contro avversari più forti?

Correggere per il livello degli avversari

Per un’effettiva comparazione tra giocatori, dobbiamo identificare gli elementi in comune nel loro calendario. Anche nell’ipotesi che non abbia mai giocato contro, qualsiasi coppia di giocatori regolarmente presenti sul circuito ha giocato contro molti degli stessi avversari.

Ad esempio, dall’inizio del 2016, diciotto dei giocatori affrontati da Murray e Djokovic sono stati gli stessi, e alcuni di questi più di una volta. Nelle parti basse della classifica, i giocatori tendono ad aver giocato contro un minor numero dei medesimi avversari ma, come vedremo, è un ostacolo superabile.

Questa è la metodologia correttiva: per una coppia di giocatori, serve trovare tutti gli avversari affrontati sulla stessa superficie. Ad esempio, sia Murray che Djokovic hanno giocato contro David Goffin sulla terra negli ultimi sedici mesi. Murray ha vinto il 53.7% dei punti alla risposta contro Goffin, mentre Djokovic solo il 42.1%, che significa che Djokovic ha risposto peggio di circa il 22% rispetto a Murray.

Si ripete la stessa procedura per ogni combinazione giocatore-superficie, si ponderano i risultati in modo che le partite più lunghe (o un numero maggiore di partite) abbiano un peso superiore, e si trova la media.

Il risultato finale per i primi due giocatori restituisce un valore del 2.3% superiore per Djokovic (si parla di valore percentuale, non di punti percentuali. Un giocatore molto forte alla risposta vince circa il 40% dei punti alla risposta, e un miglioramento del 2.3% si traduce in circa il 41% dei punti vinti).

I calcoli suggeriscono che Murray abbia giocato contro avversari dal servizio più debole: dall’inizio del 2016, ha vinto il 42.9% dei punti alla risposta, rispetto al 43.3% di Djokovic – una differenza più piccola di quella trovata correggendo per il livello degli avversari.

Necessità di passaggi intermedi

Serve un’analisi più approfondita per confrontare un giocatore come Schwartzman con i giocatori di vertice, visto che i rispettivi calendari si sovrappongono molto meno frequentemente. Prima quindi di correggere i numeri alla risposta di Schwartzman dovremo procedere per passaggi intermedi.

Iniziamo con l’attuale numero 3 Stanislas Wawrinka. Applichiamo due volte il procedimento precedentemente descritto: per Wawrinka e Murray e poi per Wawrinka e Djokovic. I numeri mostrano che il gioco alla risposta di Wawrinka è più debole di quello di Murray del 24.3% e di quello di Djokovic del 22.5%.

Le percentuali di Wawrinka confermano quanto già trovato, indicando che Djokovic sia leggermente meglio del suo rivale. Ponderando i due numeri per le dimensioni del campione – che, in questo caso, è quasi identico – apportiamo un lieve correttivo ai due confronti e concludiamo che il gioco alla risposta di Wawrinka è il peggiore di quello di Murray del 22.4%.

Per generare numeri corretti per livello degli avversari per ogni successivo giocatore, si segue lo stesso procedimento. Per il numero 4 Roger Federer, facciamo girare l’algoritmo tre volte, una per ogni giocatore sopra di lui in classifica, e mettiamo poi insieme i risultati. Per il numero 34 Schwartzman, applichiamo il procedimento 33 volte. Grazie ai poteri dell’informatica, bastano pochi secondi per correggere sedici mesi di statistiche alla risposta per i primi 50 della classifica ufficiale.

La tabella riepiloga i risultati per il 2016-2017. I giocatori sono elencati per “punti vinti alla risposta relativi” (PVR REL), dove una valutazione di 1.0 è arbitrariamente assegnata a Murray e dove una valutazione di 0.98 significa che un giocatore vince il 2% in meno di punti alla risposta di Murray contro avversari equivalenti.

La colonna “EX PVR” fornisce una rappresentazione più familiare di quei numeri: la valutazione per il giocatore in cima alla classifica è impostata a 43.0% – approssimativamente il migliore valore di PVR di qualsiasi giocatore nelle ultime stagioni – e la valutazione di tutti gli altri è aggiustata di conseguenza.

Le ultime due colonne mostrano l’effettiva frequenza di punti vinti alla risposta dal giocatore e la posizione tra i primi 50 della classifica.

Class. Giocatore     PVR REL EX PVR  Effettivo  Class.  
1      Schwartzman   1.04    43.0%   42.4%      4  
2      Djokovic      1.02    42.1%   43.3%      1  
3      Murray        1.00    41.2%   42.9%      2  
4      Nadal         0.98    40.3%   42.6%      3  
5      Goffin        0.97    40.1%   41.3%      5  
6      Simon         0.96    39.6%   40.1%      9  
7      Nishikori     0.95    39.3%   40.1%      10  
8      Ferrer        0.95    39.1%   40.6%      7  
9      Federer       0.94    38.7%   38.7%      15  
10     Monfils       0.93    38.5%   39.8%      11  

Class. Giocatore     PVR REL EX PVR  Effettivo  Class.
11     Bautista Agut 0.93    38.3%   40.3%      8  
12     Harrison      0.92    37.9%   36.7%      33  
13     Gasquet       0.92    37.9%   40.8%      6  
14     Evans         0.91    37.6%   36.9%      27  
15     Del Potro     0.91    37.5%   36.8%      32  
16     Paire         0.90    37.0%   38.1%      19  
17     Zverev        0.90    36.9%   36.9%      28  
18     Dimitrov      0.89    36.4%   38.2%      18  
19     Fognini       0.88    36.4%   39.7%      12  
20     Verdasco      0.88    36.4%   38.3%      16  

Class. Giocatore     PVR REL EX PVR  Effettivo  Class.
21     Sousa         0.88    36.2%   38.3%      17  
22     Thiem         0.88    36.2%   38.1%      20  
23     Wawrinka      0.88    36.1%   37.5%      22  
24     Zverev        0.88    36.0%   37.5%      23  
25     Ramos         0.87    35.9%   38.9%      14  
26     Edmund        0.86    35.5%   36.1%      37  
27     Sock          0.86    35.5%   36.6%      34  
28     Troicki       0.86    35.4%   37.1%      26  
29     Cilic         0.86    35.4%   37.3%      25  
30     Carreno Busta 0.86    35.3%   39.4%      13  

Class. Giocatore     PVR REL EX PVR  Effettivo  Class.
31     Raonic        0.86    35.2%   36.1%      38  
32     Cuevas        0.85    35.1%   36.9%      29  
33     Berdych       0.85    35.1%   36.9%      30  
34     Coric         0.85    34.9%   36.1%      39  
35     Kyrgios       0.85    34.9%   35.7%      41  
36     Kohlschreiber 0.84    34.7%   37.9%      21  
37     Tsonga        0.84    34.6%   36.2%      36  
38     Querrey       0.83    34.3%   34.6%      44  
39     Pouille       0.82    33.9%   36.9%      31  
40     Lopez         0.81    33.2%   35.2%      43  

Class. Giocatore     PVR REL EX PVR  Effettivo  Class.
41     Haase         0.80    33.0%   36.1%      40  
42     Lorenzi       0.80    32.9%   37.5%      24  
43     Young         0.78    32.2%   36.3%      35  
44     Tomic         0.78    32.1%   34.1%      45  
45     Mahut         0.76    31.4%   35.4%      42  
46     Johnson       0.75    31.0%   33.8%      46  
47     Mayer         0.74    30.3%   33.5%      47  
48     Isner         0.73    30.0%   29.8%      49  
49     Muller        0.72    29.8%   32.4%      48  
50     Karlovic      0.63    25.9%   26.4%      50

Qual è la grande sorpresa? Che Schwartzman è al primo posto! Se la classifica media degli avversari è stata considerevolmente più alta (cioè avversari meno forti) di quella dei giocatori di vertice, sembra che però Schwartzman abbia dovuto affrontare giocatori con un servizio ben più incisivo di quelli affrontati da Murray o Djokovic.

I primi cinque dell’elenco – Schwartzman, Murray, Djokovic, Nadal e Goffin – non costringono a rivedere la gerarchia di chi consideriamo i migliori alla risposta nel circuito, ma l’indice corretto per livello degli avversari offre certamente ulteriore prova dell’appartenenza di Schwartzman al gruppo.

Si possono trarre simili conclusioni per i giocatori in fondo all’elenco. I cinque valutati come peggiori dall’indice corretto per livello degli avversari – Steve Johnson, Florian Mayer, John Isner, Gilles Muller, e Ivo Karlovic – sono gli stessi che troviamo in fondo alla classifica degli effettivi PVR, con solo Isner e Muller a scambiarsi di posto.

Questa profonda coerenza in cima e alla base dell’elenco è rassicurante: pur correggendo per un aspetto molto importante, l’indice non sta generando alcun esito davvero privo di significato.

Peculiarità

Ci sono tuttavia alcune peculiarità. Tre giocatori fanno molto bene quando il loro gioco alla risposta è corretto per il livello degli avversari: Ryan Harrison, Daniel Evans, e Juan Martin Del Potro, ciascuno dei quali passa dalla metà inferiore ai primi 15. In un certo senso, si tratta di un correttivo per superficie per Harrison e Evans, visto che entrambi hanno giocato quasi esclusivamente sul cemento.

I giocatori vincono meno punti alla risposta sulle superfici veloci (e superfici più veloci richiamano giocatori che fanno del servizio la loro arma, amplificando l’effetto), quindi inserendo un correttivo per livello di competizione, il giocatore che gioca solo sul cemento vedrà i suoi numeri migliorare.

Del Potro invece è stato pesantemente condizionato da un gruppo di avversari molto forte, e nel suo caso l’aggiustamento gli riconosce di aver dovuto giocare contro un livello così alto.

Le statistiche alla risposta di molti tra gli specialisti della terra subiscono un correttivo di segno sbagliato. Il finalista del Monte Carlo Masters 2017 Albert Ramos scende dalla 14esima alla 25esima posizione, Pablo Carreno Busta dalla 13esima alla 30esima. Anche i numeri di Roberto Bautista August e Paolo Lorenzi diminuiscono in modo deciso.

Siamo di fronte all’effetto opposto rispetto a quanto accaduto a Harrison e Evans: gli specialisti della terra giocano più tornei su quella superficie affrontando giocatori dal servizio più debole, e in questo modo le loro medie stagionali li fanno apparire più forti alla risposta di quanto in realtà siano.

E sembra che siano tutti giocatori con rendimenti scadenti sul cemento: inserendo nell’algoritmo solo i risultati sulla terra, Bautista Agut, Ramos, e Carreno Busta si sono posizionati tra i primi 12 giocatori per punti vinti alla risposta corretti per livello degli avversari. Sono le prestazioni deficitarie sul veloce ad abbassare le loro statistiche nel lungo periodo.

Andando oltre i PVR

Il potenziale di calcolo di questo algoritmo – o di un algoritmo simile a questo – va molto oltre la semplice correzione dei punti vinti alla risposta in funzione del livello di qualità della competizione sul circuito maggiore.

Potrebbe essere utilizzato per qualsiasi statistica e, se i valori alla risposta corretti per avversari fossero incrociati con quelli dei punti vinti al servizio, si arriverebbe a un sistema complessivo di valutazione dei giocatori verosimile.

Un sistema di valutazione di questo tipo acquisirebbe maggiore solidità se fosse esteso ai giocatori oltre la posizione 50 della classifica. Così come Schwartzman non ha ancora affrontato molti degli stessi avversari dei giocatori di vertice, anche i migliori nel circuito Challenger non condividono molti avversari con i giocatori regolarmente impegnati sul circuito maggiore.

C’è però sufficiente sovrapposizione da poter capire più precisamente – combinando gli avversari in comune di decine di giocatori – come la competizione nel circuito Challenger si raffronta a quella dei massimi livelli nel tennis.

In sintesi, si possono mettere a confronto livelli adiacenti – il vertice con i giocatori di media classifica (diciamo dal 21 al 50), la media classifica con i 50 successivi e così via – per capire con maggiore dettaglio quanto debbano migliorare i giocatori per raggiungere determinati obiettivi.

Da ultimo, la correzione di statistiche al servizio e alla risposta tale da ottenere numeri per ciascun giocatore – in ogni stagione della carriera – neutrali rispetto alla tipologia di avversari, permetterà di fare più chiarezza su quali giocatori stiano migliorando e di quanto.

La classifica ufficiale e il sistema Elo forniscono già molte informazioni al riguardo, ma sono a volte tratti in inganno da vittorie fortunose o di misura o da avversari con rendimento altalenante. E non sono in grado di isolare statistiche individuali, un aspetto molto utile per comprendere lo sviluppo di un giocatore.

Correggere per il livello degli avversari è una pratica standard nell’analisi statistica di molti altri sport, e potrà aiutare anche l’evoluzione delle analisi nel tennis.

Se non altro, ha mostrato che un rendimento estremo – come il gioco alla risposta di Schwartzman – è ben più che un caso fortuito e che la grandezza nella risposta al servizio non è propria solo dei Fantastici Quattro.

Diego Schwartzman’s Return Game Is Even Better Than I Thought

Tendenze negli errori delle previsioni Elo

di Stephanie Kovalchik // OnTheT

Pubblicato il 17 febbraio 2017 – Traduzione di Edoardo Salvati

In un precedente articolo, ho iniziato a esaminare le tendenze nella disposizione degli errori attraverso le previsioni Elo, cercando di capire come un vantaggio al servizio possa influenzare la capacità predittiva del sistema Elo.

Rendimento al servizio nei tornei e nelle partite

L’analisi delle frequenze di errore predittivo Elo rispetto al rendimento medio al servizio di un giocatore in un anno ha evidenziato la maggior parte degli scostamenti per i giocatori con un servizio medio.

Lo scopo dell’articolo di oggi è verificare il rendimento al servizio nei tornei e nelle partite per avere una maggiore comprensione della bontà delle previsioni Elo tra servizi differenti e per giocatori migliori o peggiori al servizio. 

Nella prima parte, analizzo il modo in cui variano gli errori predittivi Elo per le partite del circuito maschile (dal 1991 a oggi) con il rendimento medio al servizio nel torneo considerato, una misura indiretta della velocità della superficie.

L’immagine 1 mostra una correlazione negativa poiché gli errori predittivi Elo tendono a diminuire all’aumentare del vantaggio medio al servizio, cioè la velocità della superficie (nella versione originale è possibile visualizzare i singoli valori puntando il mouse sul grafico, n.d.t.). Un torneo con una percentuale media al servizio che scende fino al 57% ha una radice dell’errore quadratico medio (RMSE) di 0.48 rispetto allo 0.45 di un torneo con una media del 67%, cioè una riduzione di quasi il 10%. 

IMMAGINE 1 – Errore predittivo Elo e vantaggio al servizio del torneo

Il grafico suggerisce una tendenza generale di maggiore accuratezza predittiva nei tornei con più alta velocità della superficie, ma non segnala se, in uno specifico torneo, l’errore varia per giocatori migliori al servizio o peggiori. Cosa succede infatti se si è giocatori con un’ottimo servizio su una superficie veloce? O un giocatore dal servizio medio su una superficie lenta?

Che errore dovremmo attenderci per diversi giocatori al servizio in un torneo con – in media – lo stesso vantaggio al servizio?

L’immagine 2 mostra gli errori predittivi Elo rispetto al rendimento al servizio in una partita. Ogni riquadro corrisponde a una diversa velocità di superficie, misurata come rendimento medio al servizio in quel torneo. Per tornei che si posizionano nell’intervallo dal 59% al 68% di vantaggio al servizio – la percentuale tipica per il circuito maschile – si osserva una forma ad arcobaleno, a indicazione del fatto che l’errore predittivo è più basso per i giocatori peggiori al servizio e per quelli migliori. Elo è tratto in confusione dai giocatori dal servizio medio.

È interessante notare come i valori massimi di errore varino in funzione della velocità della superficie. Le linee verticali nei grafici rappresentano il vantaggio medio al servizio per ciascun torneo e si vede come – in generale – intersechino la curva nel punto più alto.

IMMAGINE 2 – Errore predittivo Elo rispetto al vantaggio al servizio del torneo e vantaggio al servizio del giocatore

Si ricava dalle analisi che Elo non ha solo problemi nelle previsioni per un giocatore dal servizio medio all’interno di una stagione, ma è anche una metodologia soggetta all’errore nel caso di quei giocatori che si posizionano più vicini al rendimento medio in uno specifico torneo, presumibilmente perché è più difficile distinguere i giocatori medi di quanto non lo sia distinguere quelli agli estremi.

Le valutazioni Elo standard nel tennis non considerano il rendimento al servizio del torneo o il rendimento al servizio del giocatore. Sono però entrambi fattori che determinano errori predittivi. La capacità Elo potrebbe essere quindi migliorata includendo, oltre alle vittorie, il rendimento al servizio.

Elo Prediction Accuracy and Court Pace

Il ventesimo Slam di Federer, quello più facile

di Jeff Sackmann // TennisAbstract

Pubblicato il 20 febbraio 2018 – Traduzione di Edoardo Salvati

Dopo la vittoria di Rafael Nadal agli US Open 2017, ho scritto un articolo per l’Economist in cui provavo a classificare ciascun titolo dello Slam in base alla difficoltà, giungendo a un’interessante conclusione.

Gli avversari di Nadal sulla strada per i suoi 16 Slam sono stati significativamente più ostici di quelli affrontati da Roger Federer nella conquista dei primi 19. Nell’indice di vittoria degli Slam corretto per difficoltà, Nadal conduceva di un soffio, 18.8 rispetto a 18.7 di Federer.

Federer ha poi portato il suo totale a 20, vincendo gli Australian Open 2018. Pur di fronte a una concorrenza abbastanza debole, sicuramente un nuovo titolo ha portato l’indice di vittoria corretto per difficoltà a superare quello di Nadal, giusto?

La correzione degli Slam per difficoltà degli avversari

Si, ma non di molto. Corrette per difficoltà, le sette vittorie a Melbourne di Federer valgono solo 0.42 Slam. A confronto, il valore più basso da lui ottenuto in precedenza è stato agli Australian Open 2006, con uno 0.61, e il più basso di Nadal è stato appunto agli US Open 2017, con uno 0.62. La precedente media di Federer era 0.98, quella di Nadal 1.18 e il tabellone del Roland Garros 2013 vinto da Nadal valeva un incredibile 1.65.

Il percorso di Federer è stato debole anche in prospettiva storica. Solo alcuni Slam dell’era Open hanno richiesto meno sforzo ai vincitori, tutti prima del 1985 e la maggior parte a Melbourne, un torneo che già non richiamava i giocatori più forti.

Gli Australian Open 2018 sono stati ancora più deboli se raffrontati al decennio in corso: in media, un titolo Slam nel periodo 2010-2017 vale 1.23, in gran parte perché i Fantastici Quattro hanno dovuto giocare l’uno contro l’altro.

Secondo le valutazione Elo specifiche per superficie, il giocatore più in forma contro cui si è scontrato Federer il mese scorso è stato Tomas Berdych, seguito da vicino da Marin Cilic. Nonostante abbiano raggiunto la seconda settimana, nessuno dei due giocatori è tra i primi 10 dell’attuale classifica Elo.

L’algoritmo che corregge per difficoltà i titoli Slam considera il rendimento di un medio vincitore Slam contro un determinato gruppo di avversari. Affrontando Berdych e Cilic, ci si attende che l’ipotetico medio vincitore vinca rispettivamente l’88% e l’89% delle volte. Anche Nadal ha dovuto battere Juan Martin Del Potro a New York l’anno scorso.

Numeri dal fascino diverso

Dopo essere ritornato numero 1 del mondo, Federer può reclamare un altro primato, visto che il suo indice corretto di 19.1 ha superato quello di Nadal a 18.8 e il 15.3 di Novak Djokovic.

Non ha però lo stesso fascino di “20 titoli Slam” ed è molto più soggetto alla possibilità concreta di essere ceduto. Dovesse Nadal recuperare dall’infortunio e vincere il prossimo Roland Garros, si garantirebbe virtualmente di tornare in cima a questa speciale graduatoria, e con un margine ben più ampio di quello detenuto al momento da Federer.

Tradizionalmente il Roland Garros è un torneo difficile: eccetto il 2010, tutte le vittorie di Nadal a Parigi sono state più faticose della media. A differenza del numero totale di Slam vinti, il primo posto della classifica degli Slam corretti per difficoltà potrebbe vedere un’alternanza tra questi due campioni, se entrambi manterranno alto il loro livello competitivo.

Roger Federer’s 20th, Easiest Grand Slam Title

Note dal primo hackathon del tennis

di Stephanie Kovalchik // OnTheT

Pubblicato il 19 febbraio 2018 – Traduzione di Edoardo Salvati

Dopo la vittoria di Roger Federer agli Australian Open 2018, è tempo di conoscere i vincitori della prima competizione hackathon “Australian Open vs Intelligenza Artificiale”. Di seguito, esamino i modelli vincenti e mi soffermo sul loro significato per il futuro delle previsioni sull’esito dei punti nel tennis.

Un concorso per cervelli informatici

All’inizio dell’anno il Game Insight Group di Tennis Australia, la Federazione australiana, ha indetto un proprio concorso di tennis in cui a sfidarsi non erano colpi di racchetta, ma fantasia cerebrale e destrezza informatica: il primo hackhaton nella storia del tennis.

Sponsorizzato da crowdAnalytix, l’hackathon “Australian Open vs Intelligenza Artificiale” è stata la prima competizione nel tennis basata sull’uso di dati per risolvere una specifica richiesta, l’automatizzazione tramite algoritmo della categorizzazione dei colpi in vincenti, errori forzati e non forzati.

Questo grazie alla possibilità per i partecipanti di analizzare – a partire dal 2 gennaio 2018 – un campione di 10.000 punti delle partite degli Australian Open.

IMMAGINE 1 – Esiti predetti dei punti

Non si trattava solo di un contesto in cui ricercatori e programmatori erano motivati a esplorare i confini del contributo che l’intelligenza artificiale è in grado di dare al tennis, ma anche del primo esempio di condivisione pubblica di un enorme massa di dati contenenti informazioni puntuali sulla disposizione di giocatori e pallina in campo nel corso di un’intera partita. 

I modelli vincenti sono stati scelti alla fine delle tre settimane di competizione. Prima di vedere quali soluzioni hanno prevalso, osserviamo da vicino il campo partecipanti.

Fotografie dall’hackathon

Si sono iscritti 750 partecipanti da 55 paesi, che hanno concorso con un totale complessivo di 2731 soluzioni. Con 223 partecipanti è stata di gran lunga l’India la più rappresentata, seguita dagli Stati Uniti con 78 e dall’Australia con 51.

IMMAGINE 2 – Partecipanti all’hackathon “Australian Open vs Intelligenza Artificiale”

Per il 90% i partecipanti erano singole persone. I due codici di scrittura più comuni nelle soluzioni presentate sono stati R, leggermente più utilizzato, e Python.

I vincitori dell’hackathon

I vincitori finali sono stati selezionati sulla base del rendimento del modello rispetto a un campione di dati prova e in funzione della qualità del prospetto descrittivo dell’approccio metodologico.

Il campione di dati prova non è stato reso disponibile ai partecipanti per evitare il rischio di overfitting – cioè di eccessivo adattamento – e per fornire la valutazione più realistica possibile di come il modello si comporterebbe nell’applicazione concreta. 

Il primo premio è andato a Scott Sobel, che ha battuto gli altri quattro finalisti. Sobel è un programmatore americano che ha raggiunto un livello di accuratezza complessivo del 95% (98% per i vincenti, 89% per gli errori forzati e 95% per i non forzati). In altre parole, Sobel ha costruito un modello automatizzato che ci si attende concordi con i valutatori statistici di una partita sull’esito di 95 punti su 100.

È interessante notare come alcune caratteristiche della soluzione vincente sono comuni a quelle degli altri modelli finalisti, le più significative delle quali sono state:

  • analisi congiunta dei dati delle partite maschili e femminili per una maggiore elaborazione di calcolo
  • ampio ricorso all’ingegnerizzazione di variabili derivate
  • tecnica del potenziamento (boosting).

Nel suo modello, Sobel ha fatto ampio ricorso all’ingegnerizzazione di variabili derivate, includendone più di 1000 rispetto a quelle fornite in partenza. Lo sviluppo è stato portato avanti in R, con uso estremo della tecnica del potenziamento del gradiente (gradient boosting), così come fatto da tre dei cinque modelli finalisti.

Utilizzi futuri

L’hackathon “Australian Open vs Intelligenza Artificiale” ha prodotto uno strumento altamente sofisticato, che potrebbe essere il primo grande passo per automatizzare la categorizzazione degli esiti dei punti delle partite.

Ha contestualmente mostrato il valore potenziale dei dati nel tennis e degli incredibili risultati che si possono ottenere quando informazioni puntuali sono messe a disposizione di super appassionati di tennis con un talento per l’analisi statistica.

AO to AI Hackathon Winners Announced

Quando anche le maratone di tennis diventano troppo lunghe

di Stephanie Kovalchik // OnTheT (su TheConversation)

Pubblicato il 24 gennaio 2016 – Traduzione di Edoardo Salvati 

Le partite maratona, quelle che sembrano non aver fine, sono più frequenti nel tennis attuale di quanto lo siano mai state. Di conseguenza, lo standard di eccellenza dello sport è sotto minaccia.

Dieci partite di primo turno agli Australian Open 2016 si sono concluse al quinto set. Due partite terminate in quattro set hanno avuto il tiebreak in ogni set.

Sono tutte partite, tranne una, che hanno superato le 3 ore di gioco. Tre di queste sono durate più di 4 ore e mezzo. Per contro, agli Australian Open 2001 nessuna partita dell’intero torneo – ancor meno quindi del solo primo turno – è durata 4 ore e mezza.

Una tendenza generale

Il gruppo di partite di durata prolungata nei primi turni degli Australian Open 2016 è espressione di una tendenza generale di aumento del tempo trascorso in campo nei tornei dello Slam. Tra il 2000 e il 2012, il tempo complessivo di gioco per il tabellone di singolare maschile degli Slam sul cemento (Australian Open e US Open) è salito di 44 ore.

IMMAGINE 1 – Monte ore di gioco nei tornei dello Slam (singolare maschile)

Con il numero di partite in singolare fermo, nel periodo considerato, a 127, questa dinamica si è tradotta in un aumento medio di 20 minuti a partita nel 2012 rispetto a una decade fa.

Anche a Wimbledon, dal 2000 al 2012, la durata delle partite è cresciuta significativamente pur trattandosi di un torneo su erba, stabilendo un record di più di 310 ore di gioco nel 2010 e nel 2012. Solo al Roland Garros, lo Slam sulla terra battuta e quello in cui storicamente le partite hanno avuto la durata più lunga, non si sono verificati cambiamenti degni di nota.

Perché le partite stanno diventando più lunghe?

Attualmente esistono tre principali superfici, cemento, erba e terra battuta. Il tipo di superficie è in grado di incidere significativamente sulla velocità della pallina, con la terra battuta su cui si registrano le velocità più basse e l’erba quella con le più alte. Mai come prima, il tennis è diventato uno sport omogeneo: il gioco su ciascuna superficie assomiglia ormai molto allo sfiancante palleggio tradizionalmente associato alla terra battuta. 

Il cambiamento più evidente degli anni recenti è stato il passaggio da un gioco rapido caratterizzato dal servizio e volée degli anni ’80 e ’90 a uno da fondo in cui gli scambi sono più lunghi e in cui è raro vedere punti giocati a rete.

Pur in assenza di un singolo fattore scatenante, il ruolo dei nuovi materiali – racchette e corde – ha fatto da propulsore. Il diffuso utilizzo di racchette con un piatto più grande e con corde in poliestere ha consentito ai giocatori di vertice di colpire con straordinaria forza e controllo in ogni punto del campo, rendendo le discese a rete una strategia meno vincente.

Quali sono gli effetti?

Un aumento della durata delle partite genera ricadute su tutti gli aspetti del tennis. Aggiungere due giornate di gioco alla programmazione bi-settimanale dello stesso torneo può essere una sfida in condizioni normali, un incubo logistico in presenza di rinvii per maltempo.

Dopo diversi anni in cui gli US Open sono stati martoriati dalla pioggia, gli organizzatori hanno deciso di spostare la finale del singolare maschile al lunedì, rischiando di perdere milioni di dollari in sponsorizzazioni e di subire un calo degli ascolti televisivi (con la realizzazione della copertura mobile del campo centrale, la finale è tornata a disputarsi regolarmente di domenica, n.d.t.).

La durata incide anche sul divertimento e gradimento degli spettatori. Un patito non si lamenterà mai di troppo tennis, ma se l’obiettivo è aumentare il numero di appassionati in tutto il mondo, la presenza regolare di partite maratona deve essere un campanello d’allarme. Se seguire il tennis si traduce in uno sforzo aerobico, c’è il rischio di assistere a un assottigliamento nelle fila degli appassionati anche più estremi.

Tra gli effetti collaterali di partite più lunghe, quelli più gravosi risiedono in un aumento degli infortuni e un peggioramento della prestazione sportiva. La competizione ai massimi livelli non dovrebbe mai andare a scapito della salute dei giocatori.

Per quanto sia un legame indiretto, un contestuale aumento della frequenza dei ritiri nello Slam in cui si è verificato il maggior incremento nella durata delle partite – gli US Open – solleva il timore che il rendimento dei giocatori possa essere alterato dalla necessità di dover stare più tempo in campo, dando adito a un più alto rischio di infortuni.     

IMMAGINE 2 – Ritiri durante la partita (singolare maschile)

Cosa si sta facendo?

Nel 2012, tre partite di singolare maschile in uno Slam sono durate quasi sei ore. La maratona di undici ore tra John Isner e Nicolas Mahut a Wimbledon 2010 è apparsa più un’anticipazione dei tempi a venire che un evento accidentale.

Alla fine del 2012, l’ATP – l’organismo a capo del circuito maschile, ha introdotto modifiche volte a ridurre la tendenza all’aumento della durata delle partite, la più significativa delle quali relativa alle conseguenze della violazione temporale dei 25 secondi tra la fine di un punto e l’inizio del successivo, in modo da incentivare un maggiore rispetto della regola.

Sebbene le modifiche introdotte dall’ATP non abbiano generato effetti diretti perché gli Slam sono regolamentati dalla Federazione Internazionale (che prevede una violazione temporale di 20 secondi), dal 2013 si è assistito a una diminuzione nella durata delle partite. Questo lascia pensare che i cambiamenti promossi dall’ATP abbiano favorito una generale riduzione della durata.

Le partite sono comunque molto più lunghe oggi di quanto non lo fossero dieci anni fa. Il rispetto tassativo della violazione temporale porterà a una riduzione delle pause in una partita, ma potrebbe generare scarso giovamento alla salute dei giocatori. Riducendo il tempo di recupero tra un punto e l’altro mantenendo inalterata l’intensità dello scambio si può in realtà peggiorare la situazione.

Di fronte alle recenti iniziative degli organismi di governo del tennis per cercare di risolvere il problema, rimane da capire se si tratti di interventi di estetica e se siano necessarie azioni più incisive. 

When tennis marathons become too much of a good thing