Una prefazione per il libro su chi è il più grande di sempre

di Jeff Sackmann // TennisAbstract

Pubblicato il 15 settembre 2017 – Traduzione di Edoardo Salvati

Qualche giorno fa, l’Economist ha pubblicato un mio articolo sul confronto tra i titoli Slam di Rafael Nadal e Roger Federer. Ho sostenuto la tesi secondo la quale, considerando che il percorso di Nadal negli Slam è stato più difficile (a eccezione degli US Open 2017), le 16 vittorie valgono più – anche se di un nulla – delle 19 di Federer.

Inevitabilmente, alcuni lettori hanno sintetizzato le mie conclusioni in qualcosa del tipo “le statistiche mostrano che Nadal è il più grande di sempre”. Appunto…andiamoci piano con le sentenze. Può anche essere che Nadal sia meglio di Federer e non sarebbe impensabile elaborare una solida linea difensiva di questo assunto basata sui numeri. Ma una valutazione della prestazione – corretta per la difficoltà del tabellone – di 18.8 (Nadal) rispetto a 18.7 (Federer), su 35 tornei complessivi, non basta per supportarla.

Primo passaggio: cosa si intende per il più grande?

Ci sono due passaggi fondamentali per la ricerca di una soluzione finale a qualsiasi dibatto sul “più grande di sempre” (nel tennis come in altri sport). Il primo riguarda la definizione. Cosa si intende per “il più grande”? Quanto contano di più gli Slam rispetto agli altri tornei? Come si considera la longevità? E la classifica o i risultati su differenti superfici? Come ponderiamo il massimo livello di tennis raggiunto in carriera? Quanto conta la qualità della competizione o il bilancio negli scontri diretti? Si potrebbe andare avanti all’infinito. Solo una volta che la definizione di “più grande” è ben chiara, si può allora provare a prendere posizione per l’uno o l’altro giocatore.

Secondo passaggio: dare una risposta alle domande del primo passaggio

Il secondo passaggio – dare una risposta alle domande poste dal primo – richiede più lavoro, ma è anche molto meno opinabile. Se si decide che il più grande giocatore di sempre è quello che ha ottenuto la valutazione Elo più alta nel momento di suo massimo livello di tennis, allora possiamo affidarci al calcolo (è Novak Djokovic).

Se si selezionano dieci domande come plausibile modalità di rappresentazione per “chi è il più grande” non si avranno sempre le stesse risposte. Una maggiore attenzione alla longevità può far propendere per Federer (o Jimmy Connors). Nei risultati raggiunti solo nel momento di massima forma emerge Djokovic (o forse Bjorn Borg). Gran parte dello spazio nel mezzo è occupato da Nadal, a meno di non considerare anche il periodo precedente al professionismo, nel qual caso Rod Laver si prende un po’ della parte di Nadal.

Terzo passaggio: ragionare a ritroso nella convinzione che il proprio eroe sia il più grande

Naturalmente, molti tifosi saltano direttamente al terzo passaggio – crogiolarsi nella gloria riflessa del loro eroe – ragionando poi a ritroso. Nella strenua convinzione che il loro favorito sia il più grande di sempre, decidono che le domande più rilevanti sono di fatto quelle che lo incoronano. Su questo tipo di approccio fanno leva molte discussioni su internet, ma è decisamente distante dal livello di rigore scientifico che auspico.

Quando Federer, Nadal e Djokovic si saranno ritirati, a qualcuno probabilmente verrà l’idea di scrivere un intero libro sui possibili modi per determinare “il più grande” e stabilire chi, rispetto alle singole definizioni, è in cima alla classifica. Quanto stiamo facendo adesso è in larga misura contribuire a sezioni di capitoli di quel progetto, che prima o poi sarà realizzato. Ora come allora, un solo articolo non potrà mai essere sufficiente per porre fine a un dibattito di questa portata.

Nel frattempo, si può provare a fare luce sulle considerazioni che abbiamo già esposto. I titoli Slam non sono tutto, ma sono importanti e “19 è più di 16” e una freccia dalla punta affilata nella faretra dei sostenitori di Federer. Stabilire che proprio quei 19 non siano meglio proprio di quei 16 non liquida l’argomento tanto quanto “19 è più di 16” lo abbia mai fatto. Spero però che abbia aggiunto conoscenza sullo sport e sull’epopea dei suoi più grandi interpreti.

Nel microcosmo di un articolo da 1000 parole si possono illustrare molti concetti interessanti. Pensare di risolvere una tematica così ampia in un solo giro di penna è un’aspettativa per forza di cose disattesa. È difficile trovare risposte, ancora di più lo è scegliere la domanda giusta.

A Preface to All GOAT Arguments

Quota periscopio

di Edoardo Salvati // settesei.it

200 articoli per quasi 202 mila parole, con una media di 1008,55 parole ad articolo e una mediana di 944.

293 grafici e 71 tabelle.

19 autori di 5 diversi paesi: per il 97% Stati Uniti, poi Antille Olandesi, Austria, India e Italia.

Questi sono i principali traguardi raggiunti nei pochi mesi di attività del blog.

Il conforto dei numeri

Decisamente più ricco di significato è l’ingente quantitativo di informazioni messo a disposizione degli appassionati che desiderano affidarsi al conforto dei numeri per prendere parte – nelle parole dell’Economist, il settimanale inglese fondato nel 1843 – a un’ardua contesa tra l’intelligenza, che spinge in avanti, e una timida immeritevole ignoranza che ostruisce il progredire.

Si è scoperto ad esempio il vero motivo della popolarità del tennis a Basilea e quale sia stato il vantaggio addizionale del suo più noto cittadino, Roger Federer, nella vittoria su Rafael Nadal agli Australian Open 2017.

Si è visto anche come il calendario, almeno quello maschile, trarrebbe beneficio da una radicale riorganizzazione che garantisca migliori condizioni e favorisca la prevenzione di quegli infortuni che stanno pesantemente incidendo sulla stagione in corso.

O come due tra i giocatori più promettenti dovrebbero migliorare rispettivamente il gioco in risposta, Nick Kyrgios, e i risultati sul cemento, Dominic Thiem.

Ancora, che Angelique Kerber sta giocando peggio nei momenti importanti rispetto allo scorso anno e che Jelena Ostapenko è in corsa per diventare la giocatrice del circuito più votata all’attacco.

E, sorprendentemente, che in tutte le partite Slam degli ultimi 17 anni il punteggio in cinque set più frequente è quello in cui il vincitore perde i primi due set per poi aggiudicarsi i tre successivi.

E che la durata media del quinto set agli US Open è superiore di 6 minuti rispetto alla durata media del quinto set a Wimbledon, nonostante a New York sia previsto il tiebreak all’ultimo set.

Sfatare miti e credenze

Soprattutto, si è fatta luce su alcune (spesso errate) convinzioni di fondo radicate nella saggezza popolare tennistica.

È il caso del tiebreak (circostanza di punteggio da cui il blog prende nome), nel quale influiscono molti più fattori dell’avere a disposizione un ottimo servizio e nel quale i giocatori alla risposta hanno un vantaggio, seppur minimo.

O delle situazioni di gioco nei game, dove c’è poca evidenza all’opinione diffusa che il primo punto rivesta più importanza del suo mero ruolo di iniziatore del punteggio, o che vincere o perdere il settimo game abbia un vantaggio psicologico degno di nota sul resto del set.

C’è un insieme di credenze affrontate e chiarite – va ammesso a volte con riferimenti statistici non immediati – nella serie ‘I 22 miti del tennis di Klaassen & Magnus’ (a cui presto si aggiungeranno gli ultimi tre miti ancora da tradurre).

Infine, c’è una metodologia di valutazione dei risultati dei giocatori derivata dagli scacchi, il sistema Elo, la cui radiografia dello stato di forma espresso da un giocatore in un determinato momento è molto più precisa della classifica ufficiale adottata dai due circuiti.

Un nuovo format per emergere dal torpore

Questa è solo la superficie – la quota periscopio – di un vasto oceano ancora da esplorare. Sembra che Albert Einstein, certamente più dotato con in mano un arco da violino che una racchetta, abbia detto: “Tutti sanno che una cosa è impossibile da realizzare, finché arriva uno sprovveduto che non lo sa e la inventa”.

Convogliando in lingua italiana l’immenso patrimonio di conoscenza tennistica prodotta nel mondo anglosassone, non si è inventato nulla, ma l’approccio è quello di chi, da sprovveduto, ha creato un format per provare a emergere dal torpore della passività di fruizione del tennis da cui si è circondati.

Con orgoglio quindi, e con un po’ di ironia, settesei.it si autoproclama il più grande archivio italiano di analisi statistiche sul tennis professionistico, nel filone di precursori come TennisMyLife, Raoul RubertiDiego Barbiani che quotidianamente s’impegnano a diffondere spunti e approfondimenti su base numerica meritevoli di lettura e condivisione.

Tennis, datti una raffreddata!

di Carl Bialik // TennisAbstract

Pubblicato il 5 aprile 2017 – Traduzione di Edoardo Salvati

Immaginate di essere stati nominati a capo del tennis mondiale. Avete appena finito di prestare giuramento al cospetto di Rod Laver e Martina Navratilova e già vi consegnano un calendario vuoto da riempire. Siete voi a stabilire il programma per il 2018. Qual è la vostra prima decisione?

Anticipi e posticipi

Personalmente, anticiperei l’Indian Wells Masters e il Miami Masters e farei giocare gli Australian Open a seguire. È una modifica che non ho mai desiderato così intensamente quanto il mese scorso a Indian Wells, dove mi aggiravo madido di sudore alla ricerca di ombra durante lo svolgimento del torneo.

Nello stadio principale, durante la sessione diurna le uniche sezioni interamente riempite dagli spettatori erano quelle protette dal sole. Ci sono diversi punti della struttura in cui ripararsi dal calore, sotto le tende degli sponsor o ai piedi dei mega-schermi. Ma i giocatori possono solo aspettare che l’ombra faccia la sua apparizione sul campo. Jack Sock ad esempio ha dovuto utilizzare un asciugamano riempito da 50 cubetti di ghiaccio per raffreddarsi.

Certamente, è stato un caldo insolito durante l’Indian Wells Masters 2017. Le medie stagionali sono però chiare: è molto caldo nel deserto della California e sotto il sole della Florida a marzo, così come nell’estate di gennaio dell’emisfero australe. Sarebbe invece più fresco a Indian Wells, Miami e Melbourne se i due Master degli Stati Uniti venissero anticipati di due mesi in modo da giocare il primo Slam dell’anno a marzo.

Ciascuno di questi tornei avrebbe una temperatura media inferiore dai 2 ai 5 gradi centigradi (la percezione rimarrebbe più o meno la stessa, quindi il finalista del Miami Masters Rafael Nadal avrebbe sempre modo di lamentarsi dell’umidità, richiedere la segatura per il manico e sudare ancora più copiosamente del solito, mentre la vincitrice del singolare femminile Johanna Konta potrebbe dover continuare a cambiarsi a metà partita perché i suoi vestiti hanno accumulato circa 5 kg di sudore).

Meno gradi, meno sole, più spettatori

Utilizzo temperature medie perché non voglio dare troppa importanza a un caldo irragionevole a Indian Wells o un freddo insolito a Miami a marzo. Le medie però potrebbero sottovalutare il problema, perché sono proprio gli estremi a preoccupare. Un calo anche solo di un paio di gradi, in media, potrebbe tradursi in una diminuzione considerevole nella probabilità di due settimane di tennis cocente, diciamo dal 25% al 5% di probabilità.

Una modifica al calendario vorrebbe anche dire meno luce. Questo non gioverebbe molto al soprannome Sunshine Double dato ai due tornei, ma sarebbe di beneficio per il tennis. Fino a che più stadi non adottano coperture anche parziali – per il sole, non per la pioggia – giornate più corte equivalgono a meno sole con cui avere a che fare per gli spettatori e più ragioni per riempire gli spalti. Inoltre, il tennis giocato di sera è entusiasmante. I due tornei possiedono già riflettori in abbondanza per le sessioni serali.

Una cassa di risonanza per gli Slam

Oltre a dare al tennis una raffreddata, la revisione del programma avrebbe altre ricadute positive. La vicinanza di ben tre Slam a metà stagione genererebbe una cassa di risonanza che farebbe da traino per il seguito del pubblico da un torneo al successivo. Gli Australian Open sperperano questo avviamento nei quattro mesi che li separano dal Roland Garros. C’è anche un mese di distanza tra la fine degli Australian Open e il primo grande evento, appunto l’Indian Wells Masters.

Inoltre, gli altri 3 Slam si avvantaggiano della presenza di tornei preparatori che, da un lato, consentono ai giocatori di trovare intesa con la superficie, dall’altro, agli appassionati di alimentare l’attesa. Gli Australian Open arrivano solamente dopo due settimane dall’inizio ufficiale della stagione, preceduti da semplici tornei di categoria base, su entrambi i circuiti.

La mancanza di una netta separazione tra la fine di una stagione e l’inizio della successiva inoltre costringe alcuni giocatori a saltare il primo Slam per recuperare da infortuni o affaticamento. È il caso ad esempio di Juan Martin Del Potro dopo che ha vinto la Coppa Davis a novembre 2016.

Una vera campagna sul cemento

Ipotizziamo invece che la stagione inizi a Indian Wells e poi a Miami o, visto che siamo in vena di cambiamento, prima a Miami e poi a Indian Wells, così da agevolare gli spostamenti dal centro di potere del tennis che è l’Europa, e che si utilizzi la stessa superficie e le stesse palline di Melbourne.

A quel mese – o ancora meno se uno o entrambi i Masters negli Stati Uniti realizzano che potrebbero tranquillamente durare una settimana – seguono Doha e Dubai, poi Brisbane, Sydney e gli altri, prima dell’evento principale a Melbourne, all’inizio di marzo. La stagione partirebbe con un vera campagna sul cemento che culmina con il primo Slam.

Dall’Australia, il circuito potrebbe rimanere nell’emisfero sud. I tornei del Sud America (per comodità si includono i paesi dell’America Centrale come il Messico, n.d.t.) hanno una lunga storia ma uno spazio estremamente infelice nel calendario attuale. Tradizionalmente, erano tornei giocati sulla terra, ma alcuni tra i più importanti hanno deciso di passare al cemento – prima Acapulco, ora forse Rio per ottenere lo status di Master – per il disappunto di Nadal e altri. Troppi giocatori ritengono che non valga la pena giocare sulla terra per qualche settimana se poi arriva un mese di cemento.

Però, spostando Indian Wells e Miami, la terra sudamericana potrebbe a sua volta presentarsi un mese dopo in calendario, calmierando parzialmente di un grado, in media, quelle che Nadal definisce condizioni “troppo estreme”. La tournée del Sud America lancerebbe poi in continuità Houston, Charleston e la terra europea, che, tra le altre cose, si estenderebbe a Bucarest, Amburgo, Umag, Bastad e Gstaad, togliendoli dalla loro attuale scomoda posizione dopo Wimbledon. E a nessuno verrebbe in mente di suggerire al Miami Masters di passare alla terra verde americana.

Un calendario lineare

Avremmo così un calendario lineare formato da cinque sotto-stagioni più o meno della stessa lunghezza e importanza, quattro con all’interno uno Slam e l’ultima con le Finali di stagione: (1) il cemento all’aperto negli Stati Uniti, Medio Oriente e Oceania, seguito (2) dalla terra in Sud America e Europa, (3) dall’erba tedesca e inglese (con Newport, per quelli che vogliono visitare la Hall of Fame del tennis), (4) dal cemento in Nord America e in Asia, e (5) dal sintetico europeo al chiuso (in cui far rientrare tornei come San Pietroburgo e Rotterdam). Il tutto che si conclude con le Finali di stagione nella città che in quel momento il torneo con i migliori 8 del mondo definisce casa.

E, già che ci siamo, giocare poi la Coppa Davis e la Fed Cup in contemporanea – i due circuiti sincronizzati tra loro, che grande idea! – nei weekend di passaggio da una sotto-stagione all’altra, dando ai paesi ospitanti una scelta di superficie molto più ampia e coerente, nella possibilità di selezionare lo stesso posto se uomini e donne della stessa nazione devono affrontare lo stesso turno (Praga nel 2012 ad esempio sarebbe stata il nirvana del tennis). O, follia, pensare di fondere i due eventi in uno solo.

Potrebbe tutto questo accadere per davvero?

Certo, se la capacità decisionale fosse ricondotta a una sola persona o un gruppo di persone che hanno a cuore la salute del tennis come sport globale. In assenza di una radicale trasformazione però, si procederebbe troppo lentamente affinché il progetto arrivi a compimento: ci sono voluti anni perché la stagione dell’erba diventasse più lunga di una settimana.

Cool Down Tennis

Le Cinque Grandi Domande sull’analisi statistica nel tennis

di Jeff Sackmann // TennisAbstract

Pubblicato il 4 aprile 2017 – Traduzione di Edoardo Salvati

Decine di ricerche di piccolo cabotaggio che non trovano fra loro ovvia assonanza possono dare all’infante campo delle statistiche nel tennis un’apparenza piuttosto caotica. Alcune sembrano importanti ma incompiute, altre divertenti ma futili.

Voglio provare a imporre una struttura a questo flusso magmatico attraverso la classificazione dei temi oggetto di investigazione in quelle che chiamerò le Cinque Grandi Domande, ciascuna delle quali di fatto è solo un macro contenitore per altre centinaia. Come vedremo, in realtà ci sono sei categorie, e non cinque, a riprova che parlare di statistiche non significa semplicemente saper fare i conti.

1. Qual è la previsione di lungo periodo?

Al di là della prossima sequenza di tornei, che indicazioni forniscono le evidenze riguardo al futuro? È una domanda che si rivolge alle singole stagioni come a carriere intere. Quali sono le possibilità che Roger Federer torni a essere il numero 1 mondiale? Quanti Slam vincerà Nick Kyrgios? Quanto impiegherà Catherine Bellis a entrare tra le prime 10?

Le domande più importanti di questa categoria sono anche quelle per cui è più difficile trovare una risposta. Considerando i pochi dati a disposizione sui giocatori juniores, cosa si può prevedere – e a quale livello di confidenza – riguardo alla loro evoluzione? Sono domande per le quali le federazioni nazionali vorrebbero avere una risposta, e non sono naturalmente le uniche interessate. Tutti gli altri attori, dagli sponsor ai tornei alle famiglie dei giocatori stessi, desiderano individuare stelle future. Non solo, maggiore è la sofisticazione delle risposte, meglio si è in grado di affrontare i naturali sviluppi. Cosa possiamo fare noi (famiglie, allenatori, federazioni, etc), per aumentare le probabilità di successo di un giocatore?

2. Chi vincerà la prossima partita?

Anche la seconda domanda è relativa alle previsioni, ed è l’argomento che ha ricevuto – di gran lunga – la maggiore attenzione di tipo statistico. Non solo è divertente e avvincente cercare di pronosticare i vincitori, ma c’è anche un’enorme industria globale da miliardi di dollari costantemente orientata verso previsioni più accurate.

In qualità di analista, non mi interessa molto fare pronostici come attività fine a sé stessa, ma sono molto più attratto dalla sfida di identificare tutti i fattori che incidono sugli esiti delle partite, come il ruolo rivestito dalla stanchezza, o la preferenza di un giocatore per determinate condizioni di gioco, o ancora le caratteristiche specifiche di un scontro diretto tra due giocatori. I sistemi di valutazione dei giocatori rientrano in questa categoria, ed è importante ricordare che sono solo un mezzo previsionale, non un fine.

Come meta-domanda di questa categoria, ci si potrebbe chiedere che grado di accuratezza un sistema previsionale potrebbe mai raggiungere. Detto altrimenti, quanto influisce il caso sull’esito di una partita?

3. Quando e perché il modello “identico e indipendentemente distribuito” diventa inadatto?

Molte analisi sportive si basano sull’assunto che gli eventi che determinano il punteggio siano “identici e indipendentemente distribuiti”, vale a dire che fattori come le strisce vincenti, il vantaggio psicologico e il predominio nei momenti chiave siano inesistenti o impossibili da determinare con precisione. Nel caso del tennis, il modello iid potrebbe portare a pensare che una giocatrice converta palle break con la stessa frequenza con cui vince tutti i punti ai vantaggi, o che un giocatore tenga il servizio quando sta servendo per il set tanto spesso quanto tenga il servizio in generale.

La saggezza popolare è in forte disaccordo, ma raramente ha il pregio di essere coerente (“È difficile servire per il set” ma “Questo giocatore è particolarmente forte quando è avanti nel punteggio”). Questo si riduce a scomodare un diverso insieme di domande previsionali, un’altro ancora. Sappiamo che una giocatrice vince il 65% dei punti al servizio, ma quali sono le sue probabilità di vincere quel determinato punto, considerato il contesto di riferimento?

Sospetto che un’analisi approfondita rivelerà molte situazioni di disaccordo tra la realtà e il modello idd, specialmente quando riferite al singolo giocatore. Ancor più che per i primi due temi, le dimensioni limitate dal campione di dati a disposizione per molti specifici contesti costringe a essere sempre attenti nel distinguere ciò che veramente accade dal rumore di sottofondo e ricercare tendenze di lungo periodo.

4. Quanto è giocato bene un certo tipo di colpo?

Con l’aumento della varietà nella tipologia di dati a disposizione, le statistiche nel tennis diventeranno più granulari. Il Match Charting Project offre più di 3000 partite in cui ogni punto è descritto attraverso più parametri. Anche in assenza di dettagli su ogni colpo – come la posizione in campo, la velocità e la rotazione – è comunque possibile iniziare a determinare l’efficacia dei colpi di uno specifico giocatore, come nel caso del rovescio di Federer.

Con dati più granulari su ogni colpo, gli analisti riusciranno a essere ancora più precisi. Alla fine saremo in grado di conoscere l’effetto che cinque km/h in più nella velocità media di un dritto determinano, o il valore di un colpo giocato da appena dentro la linea di fondo invece che da appena fuori. Alcuni ricercatori – fra tutti Stephanie Kovalchik di OnTheT – hanno avviato approfondimenti su questo tipo di dati, e il futuro di questo ramo di indagine dipenderà in larga parte dall’eventuale condivisione pubblica di questi database.

5. Quanto è efficace un certo tipo di tattica?

L’analisi di un solo colpo ha i suoi limiti. A parte il servizio, ogni colpo nel tennis va contestualizzato, e anche i servizi di solito formano parte del contesto degli altri colpi. Molte delle domande di base relative alla tattica devono ancora essere quantificate, come ad esempio la frequenza vincente di un colpo di attacco sul rovescio dell’avversario invece che sul dritto.

Come per il tema precedente, le domande sulle tattiche diventano molto più interessanti, e immensamente più complicate, se dati della qualità di quelli raccolti dal sistema di moviola Hawkeye diventano disponibili. Con sufficienti informazioni sulla posizione, velocità e rotazione, saremo in grado di determinare il punto del campo e il tipo (e direzione) di colpo di attacco che da quel punto raggiunge la massima efficacia. Potremmo anche quantificare il rapporto costo/beneficio di spostarsi sul lato del rovescio per colpire di dritto: quanto bene deve essere giocato il dritto per bilanciare la debolezza che ne consegue in termini di posizione in campo?

Il Match Charting Project, in quanto sforzo collettivo di volontari, ha un raggio d’azione limitato. In definitiva, è un territorio che appartiene a chi possiede i dati che arrivano da sistemi di tracciatura sofisticati.

6. Qual è l’organizzazione ideale del tennis?

Come ho anticipato, si tratta solo di cinque grandi domande. Prevedere carriere, partite, punti e quantificare colpi e tattiche significa per me esaudire l’intero spettro delle analisi statistiche di tennis.

Ci sono però poi numerose domande relative al tennis che possono inquadrarsi all’interno di un più ampio contesto di business. Come dovrebbero essere distribuiti i premi partita? Qual’è il sistema organizzativo che garantisca un bilanciamento di interessi tra veterani e nuovi arrivati? Ci sono troppi tornei di alta fascia o non ce ne sono a sufficienza? Che destino c’è in serbo per la Coppa Davis?

Molti di queste problematiche rimangono, per il momento, domande filosofiche la cui risposta è più una questione di preferenze o di istinto. Gli esperimenti mirati incontreranno sempre delle difficoltà anche solo per l’orizzonte temporale considerato: se il format della Coppa Davis viene modificato e perde poi di interesse, dove sta la causa e dove l’effetto? Non è un esperimento replicabile.

Nonostante la sfida che pongono, queste sono grandi domande, e gli analisti potrebbero offrire un punto di vista molto prezioso.

Diamoci da fare quindi.

The Five Big Questions in Tennis Analytics

Verso una statistica granulare nel tennis

di Jeff Sackmann // TennisAbstract

Pubblicato il 19 agosto 2013 – Traduzione di Edoardo Salvati

Durante una recente conferenza stampa Roger Federer ha ammesso di non essere mai stato ossessionato dalle statistiche. E perché dovrebbe, quando commentatori e giornalisti tendono a focalizzarsi sulle solite macro-statistiche come palle break trasformate e punti vinti sulla seconda di servizio? Cioè quelle statistiche che, più un giocatore continua a vincere punti, più appaiono solide? E che fanno scoprire l’acqua calda tennistica, quella per la quale si ottengono risultati migliori quando si vincono più punti? Se fossi nella posizione di Federer, anche io non sarei ossessionato dalle statistiche. 

Se vogliamo che le statistiche siano uno strumento efficace per descrivere le prestazioni di un giocatore, dobbiamo concentrarci su quei numeri relativi a situazioni di gioco più direttamente controllabili dal giocatore stesso.

Gli ace ad esempio – per quanto in parte legati alla bravura in risposta dell’avversario – sono una delle poche statistiche generalmente disponibili che danno evidenza diretta della prestazione un giocatore. Si può avere una giornata in cui il servizio funziona a pieno regime ma non si fanno molti ace e una giornata in cui le percentuali sono mediocri ma con più ace realizzati. Come regola di fondo, molti ace significa che si sta servendo bene, molti doppi falli significa che non si sta servendo bene.      

Prendiamo invece il caso dei punti vinti sulla seconda di servizio, una delle statistiche più citate dai commentatori. È una statistica che può dare indicazione, anche se marginale, della qualità della seconda di servizio. Ma è anche una statistica che tiene conto della capacità in risposta dell’avversario sulle seconde di servizio, oltre alla prestazione di entrambi i giocatori su quegli scambi che sono iniziati, a quel punto, quasi allo stesso livello. Se da un lato è fonte per ampi dibattiti sul tema, dall’altro la percentuale di punti vinti sulla seconda di servizio non offre utilità pratica per il singolo giocatore o per capire dove esattamente entrambi i giocatori si sono distinti durante la partita.

Statistiche granulari

Gli ace e i doppi falli sono validi indicatori del livello di gioco al servizio (sarebbe utile avere anche il numero di servizi vincenti non rappresentati da ace, visto che sono più simili agli ace di quanto non lo siano rispetto ai servizi che subiscono risposte, seppur non efficaci).   

Ma per tutti gli altri punti? E per strategie specifiche?

Un esempio ovvio di statistica base che dovrebbe essere conteggiata è la profondità della risposta al servizio. Certo, dipende anche dall’efficacia al servizio dell’avversario, ma si riferisce a una tipologia di colpo univoca e per di più in grado di decidere le sorti di una partita. Può essere definita con chiarezza e ha utilità pratica. Se un giocatore non riesce a mandare con continuità la risposta oltre la linea del servizio, perderà quasi sempre da un buon avversario. Rispondendo invece con continuità a poca distanza dalla riga di fondo, è in grado di neutralizzare gran parte del vantaggio di chi serve.

Ecco un elenco di altre statistiche granulari con lo stesso potenziale informativo:

    • Percentuale di risposte tagliate (slice o chip)
    • Percentuale di rovesci tagliati (slice o chip)
    • Servizi (e altri colpi) in rete, rispetto a altri tipi di errori
    • Varietà e direzione dei colpi, ad esempio rovescio lungolinea rispetto a rovescio incrociato o al centro
    • Approcci a rete
    • Percentuale di successo delle palle corte (da entrambi i lati)

Due statistiche ampiamente disponibili, errori non forzati e vincenti, possiedono elementi comuni alle statistiche granulari, ma non sono sufficientemente specifiche. Conoscere il rapporto vincenti/non forzati è certamente indicazione del livello di gioco espresso da un giocatore in una determinata partita, ma cosa se ne ricava esattamente? Federer deve essere meno distratto? Deve giocare più vincenti?

Ancora una volta, è facile capire perché i professionisti non scalpitino per conoscere questi numeri. Nel baseball, nessun lanciatore ricava benefici dal sapere che dovrebbe concedere meno punti, o nell’hockey un portiere che debba concedere meno goal.  

Un barlume di speranza

Se ci fosse la possibilità di accedere ai dati raccolti tramite il sistema Hawk-Eye, questo tipo di analisi (e moltissimo altro) sarebbero alla portata. Anche se Hawk-Eye rimane a uso esclusivo dell’ATP, la direzione presa da SAP e dalla WTA lascia ben sperare per un numero maggiore di statistiche granulari nel tennis.

Nel frattempo, dovremo arrangiarci da soli.

Toward Atomic Statistics

Tre semplici accorgimenti per migliorare il sistema di classifica dell’ATP

di Jeff Sackmann // TennisAbstract

Pubblicato il 30 marzo 2012 – Traduzione di Edoardo Salvati

Il sistema di classifica su due anni proposto da Rafael Nadal favorirebbe i veterani a scapito di tutti gli altri giocatori. L’algoritmo che ho elaborato è troppo complicato per un uso settimanale da parte di giocatori e appassionati. Rimane però sempre un fondo di insoddisfazione associato al sistema adottato dall’ATP, insoddisfazione che andrebbe, se possibile, eliminata.    

Un sistema di classifica serve a due scopi, ognuno dei quali va tenuto bene in mente se si vuole trovare un’alternativa migliore a quello attualmente in uso.

Intrattenimento

Gli appassionati vogliono sapere chi è il numero uno del mondo. Nessun sistema sarà mai perfetto, ma se Nadal ha una classifica migliore di Novak Djokovic pur avendoci perso diverse volte di fila, il sistema perde di credibilità.

Partecipazione ai tornei 

La classifica determina i giocatori che ricevono accesso diretto al tabellone principale di un torneo. Una classifica distorta tiene fuori dai tornei i giocatori più forti e fa entrare quelli meno forti.

Un sistema valido rispetto a uno di questi parametri generalmente è valido anche per l’altro. In un mondo ideale, la classifica mostrerebbe il giocatore nel migliore stato di forma del momento, dove “momento” è definito con precisione per evitare di porre eccessiva attenzione alle strisce vincenti.

Un altro modo per affrontare il problema è quello di attendersi che la classifica abbia la maggiore capacità di predizione possibile. Se gli sfavoriti vincono continuamente, non significa che il tennis è uno sport con molti sfavoriti vittoriosi, significa piuttosto che la classifica non riflette la situazione correttamente!

Il sistema attualmente in uso non è poi così malvagio. Ci sono però tre problemi.

La settimana scorsa ha lo stesso peso dell’anno scorso

Il vincitore del Miami Masters 2012 in corso di svolgimento prenderà 1000 punti, i quali rimarranno nella sua classifica la prossima settimana, i prossimi sei mesi e per altre 51 settimane in totale. In 53 settimane da quel momento, però, avrà zero punti relativi a questo torneo. Se cerchiamo di misurare la sua bravura (in termini di risultati), un torneo disputato 51 settimane fa non ha lo stesso potere informativo di un torneo della settimana scorsa. E se si insiste nell’utilizzare un risultato di 51 settimane fa, perché allora non uno di 53 settimane fa?

Le superfici sono intercambiabili 

La primavera scorsa Milos Raonic ha vinto diverse partite di fila sui campi indoor, che gli hanno fatto guadagnare la testa di serie al Roland Garros 2012. Per quanto apprezzi il tennis di Raonic, ha meritato davvero una testa di serie al Roland Garros senza praticamente avere giocato partite ad alto livello sulla terra? Le prestazioni su una superficie hanno effetti positivi (o negativi) di qualche tipo su un’altra, ma (ovviamente!!) non tutte le superfici sono state create uguali.

Tutti gli avversari sono uguali

Nel terzo turno del Miami Masters 2012, Andy Roddick ha battuto Roger Federer, per poi perdere al turno successivo. Prenderà 90 punti per la vittoria. Kei Nishikori ha battuto Lukas Rosol, per poi perdere al turno successivo. Prenderà gli stessi punti. Qualche volta queste differenze si neutralizzano nel lungo periodo, ma possiamo fidarci che questo accada? I risultati di Roddick di questa settimana sono più impressionanti di quelli di Nishikori, e dovrebbero ricevere il giusto riconoscimento.

Le mie soluzioni

Questi problemi possono essere risolti con la semplice aritmetica, apportando migliorie al sistema di classifica che qualsiasi giocatore riesce a comprendere. Nelle soluzioni che illustrerò, non contano i dettagli precisi, l’aspetto più importante è riconoscere che non tutte le partite sono uguali tra loro.

La settimana scorsa vale più dell’anno scorso 

Nel mio sistema di classifica la settimana scorsa vale leggermente più della settimana che l’ha preceduta, che vale più della settimana precedente ad essa e così via. Ecco un semplice modo per inserire questa nozione nella classifica ATP attualmente in uso: dopo 4 mesi, i tornei valgono solo l’80% dei punti originariamente assegnati; dopo 8 mesi, i tornei valgono solo il 60% dei punti originariamente assegnati. In questo modo, l’uscita dei punti dalla classifica è più graduale e l’Indian Wells Masters 2012 vale di più, ad esempio, degli Internazionali d’Italia 2011. Se Nadal vuole ancora un sistema su due anni, questa metodologia si può allungare per tenere conto di due anni di risultati: dopo un anno il 45%; dopo 16 mesi il 30%; dopo 20 mesi il 15%. Così tutti sono soddisfatti!

Superfici diverse, classifiche diverse 

Ci sarà sempre, e dovrà esserci sempre, una classifica unica più importante che ricomprenda i risultati su tutte le superfici. Perché però non fare di meglio per l’accesso ai tornei? Ad esempio, si crea una classifica sulla terra raddoppiando i punti ottenuti nei tornei sulla terra ed escludendo gli altri. David Ferrer e Carlos Berlocq saliranno in questo modo di classifica; John Isner e Kevin Anderson scenderanno. Qualunque appassionato sa già che questo succede, quindi i tornei dovrebbero determinare l’ingresso nel tabellone principale anche in questo modo. Dopotutto, Wimbledon ha utilizzato a lungo un metodo di questo tipo per assegnare le teste di serie, se non per l’ingresso diretto in tabellone.

Punti addizionali per aver battuto i giocatori più forti 

La WTA lo ha fatto in passato, ed è il meno lineare dei miei suggerimenti. È così importante però che un po’ di complessità aggiuntiva non guasta. Diciamo 100 punti in più per ogni vittoria contro un giocatore tra i primi 3; 75 punti per aver battuto il quarto, quinto o sesto classificato; 50 punti per una vittoria contro i restanti primi 10; 30 punti contro i classificati tra 11-15 e 10 punti contro i classificati tra 16-20. Alcuni risultati a sorpresa come le vittorie di Isner, Roddick e Grigor Dimitrov ci dicono qualcosa di importante e la classifica dovrebbe prenderne atto.

Sono tutti calcoli facilmente eseguibili e sicuramente non più complicati delle regole per definire le classifiche protette o quelle per le penalizzazioni in seguito alla non partecipazione a un torneo obbligatorio. In questo modo, i giocatori più giovani vedranno salire la propria classifica più velocemente una volta che iniziano a vincere contro i più forti. Tutti i giocatori accederanno ai tornei (ottenendo la testa di serie) su superfici su cui hanno realizzato più vittorie. E gli appassionati potranno usare un sistema di classifica più accurato per stabilire, nelle loro discussioni, quali siano davvero i giocatori migliori.

Three Simple Ways to Improve the ATP Ranking System

Il tallone d’Achille della classifica proposta da Rafael Nadal

di Jeff Sackmann // TennisAbstract

Pubblicato il 29 marzo 2012 – Traduzione di Edoardo Salvati

Ora che Rafael Nadal si è dimesso dal comitato giocatori dell’ATP – a quanto pare perché la sua proposta di modifica del sistema di classifica su due anni non ha avuto un serio riscontro – è probabile che sentiremo parlare ancora di questa modalità alternativa.

Presumibilmente, il metodo suggerito da Nadal dovrebbe considerare i risultati delle ultime 104 settimane (due anni appunto) invece che le attuali 52, senza l’aggiunta, per quanto é dato sapere, di ulteriori modifiche. Se così fosse, il resto del comitato (e l’ATP in generale) fa bene a non dare seguito alla proposta di Nadal. Il danno per il tennis infatti sarebbe molto rilevante a fronte di benefici marginali, riducendo drasticamente le possibilità di ascesa dei giocatori più giovani e apportando pochi cambiamenti per quelli già in cima alla classifica.   

Qual è lo scopo di un particolare sistema di classifica?

L’interrogativo di fondo riguarda lo scopo per cui viene adottato un particolare sistema di classifica. Se l’obiettivo è quello di premiare le prestazioni passate, un sistema su due anni può essere funzionale. Se l’obiettivo invece è quello di compilare una classifica dei giocatori rispetto al loro livello di gioco del momento, considerare un torneo di 22 mesi fa allo stesso modo di un torneo della settimana scorsa è chiaramente privo di senso. 

Prendiamo la classifica attualmente in uso. Assegnando lo stesso peso ai tornei delle ultime 52 settimane (con più punti per i tornei più importanti naturalmente) la classifica di un giocatore è la media di quanto ha giocato bene durante le ultime 52 settimane o, in altre parole, è una stima di quanto quel giocatore fosse in forma 26 settimane fa. Per la maggior parte dei giocatori, questa è un’approssimazione valida del loro livello di forma del momento. Se si dovesse passare a un sistema su due anni, la classifica restituirebbe una stima del livello di forma dei giocatori risalente a un anno fa… 

Effetti negativi sui giovani

I giocatori che più ne ne subirebbero gli effetti negativi sono i giovani (o qualsiasi altro giocatore, in realtà) in ascesa. Anche nel sistema corrente, la classifica impiega del tempo prima di riflettere pienamente lo stato di forma di stelle nascenti come Bernard Tomic o Milos Raonic. Quando Raonic ha messo insieme degli ottimi risultati all’inizio del 2011, la classifica teneva ancora in considerazione i punti ottenuti nei tornei Challenger dell’anno prima. In un sistema su due anni, i risultati più recenti di Ranoic varrebbero ancora meno. Gli servirebbe il doppio del tempo per consolidare la sua classifica.

Benefici per i giocatori già affermati in declino o infortunati

I giocatori che di fatto trarrebbero benefici sono, naturalmente, quelli del tipo opposto, cioè giocatori già affermati in declino o infortunati. Se un giocatore continua ad avere un ottimo stato di forma, come nel caso di Novak Djokovic, Nadal stesso, Roger Federer o Andy Murray che sono sempre tra i primi quattro, il sistema di classifica adottato non è così rilevante. Lo diventa invece per i giocatori che hanno giocato bene nel periodo tra 104 e 52 settimane fa e non hanno fatto granché successivamente. Tra questi ci sono al momento giocatori infortunati come Robin Soderling, e giocatori in declino come Andy Roddick e Fernando Verdasco.

È giusto che Roddick e Verdasco continuino a beneficiare dei risultati ottenuti nel 2010? Almeno per me, la risposta è decisamente “no”. Seppur in uno stato di forma negativo, Roddick comunque sarà testa di serie al Roland Garros 2012. Merita più di questo?

Il caso di Soderling

Soderling invece? Non ha più giocato da giugno ed è sceso al 30esimo posto della classifica. A meno che non riprenda nei prossimi 3 mesi, uscirà anche dalla lista infortunati. Se c’è un caso per il quale il sistema di Nadal può valere, è il suo. Ma l’ATP ha già in adozione due metodi per proteggere giocatori nella situazione di Soderling: la classifica protetta (protected ranking o PR) e le wild card, cioè gli inviti dagli organizzatori dei tornei.

I giocatori infortunati per un certo periodo di tempo possono usare la loro PR (che equivale alla loro classifica dell’ultima volta in cui hanno giocato) per accedere al tabellone principale di uno specifico numero di tornei. Fino a poco tempo fa, Tommy Haas continuava a utilizzare la PR di 20. Soderling avrebbe una PR che gli permetterebbe di partecipare a un sufficiente numero di tornei per ricostruire la sua classifica, sempre nell’ipotesi che si ripresenti con una forma simile a quella che aveva prima dell’infortunio. 

Protected Ranking o wild card

Naturalmente, ci sono anche le wild card. Se Soderling dovesse ritornare a giocare, anche nel caso in cui non abbia una classifica, ogni torneo di livello 250 o 500 gli darebbe una wild card senza pensarci troppo. Questo rende la PR ancora più importante di quanto l’ATP avesse in mente: Haas ad esempio ha potuto mantenere la PR di 20 così a lungo perché ha ricevuto diverse wild card, potendo così risparmiarla per quando gli è effettivamente servita.

L’unico svantaggio della PR o delle wild card è che i giocatori non ricevono la testa di serie. Ma dopo essere stato fuori dal circuito per un anno, è giusto che a un giocatore sia garantito il passaggio al terzo turno? Faccio fatica a crederlo. E se dovesse essere un elemento così importante, forse giocatori come Soderling potrebbero ricevere la testa di serie più bassa (tipo la numero 32 all’Indian Wells Masters, al Miami Masters o negli Slam) due delle volte in cui utilizzano la loro classifica protetta.

In sintesi: un sistema semplice su due anni rallenterebbe l’ascesa delle giovani promesse, costringendole a doversi imporre per un periodo due volte più lungo di quello necessario nella classifica attuale. Non avrebbe invece effetti negativi sui giocatori che continuano ad avere un ottimo stato di forma. Aiuterebbe i giocatori in declino che probabilmente non hanno bisogno di essere aiutati. I giocatori di più alta classifica di rientro da un infortunio non farebbero fatica a partecipare a tornei perché il metodo proposto da Nadal darebbe loro una testa di serie.

Assegnare importanza diversa ai risultati

Se ve lo steste chiedendo, anche il mio sistema di classifica per pronosticare i tornei usa due anni di risultati. È fondamentale però distinguere tra l’utilizzo di due anni di risultati (accettabile) e assegnare lo stesso peso a tutti i risultati (inaccettabile).

Il problema maggiore con la classifica ATP – che diventerebbe ancora più grande con un sistema come quello di Nadal – è che attribuisce la stessa importanza a tornei giocati tempo fa e a tornei giocati molto recentemente. Il vincitore dell’Indian Wells Masters 2012 ha 1000 punti che valgono per la sua classifica, il vincitore del Miami Masters 2011 ha 1000 punti che valgono per la sua classifica. Il vincitore dell’Indian Wells Masters 2011 ha..beh..0 punti che valgono per la sua classifica.

Le prestazioni di un giocatore risalenti a 18 o 20 mesi fa hanno un certo valore predittivo, ma sicuramente non lo stesso delle sue più recenti prestazioni. A parziale supporto del sistema di Nadal, questo è particolarmente vero per i giocatori che rientrano da un infortunio. Il mio sistema non ha mai tolto Juan Martin Del Potro dalle prime dieci posizioni o giù di li, mentre con un sistema a un anno la classifica ATP lo ha visto uscire ben oltre la 100esima posizione.

Distinzione tra passato prossimo e recente diventa fondamentale

Se si utilizzano i risultati di due anni, è assolutamente imperativo distinguere tra risultati passati e risultati più recenti. In realtà, un approccio di questo tipo migliorerebbe anche il sistema su 52 settimane. Il mio algoritmo assegna un peso ai risultati di un anno fa di circa la metà di quello per i risultati della settimana scorsa e di circa un quarto ai risultati di due anni fa. L’assegnazione di pesi non è semplice e così impostata non andrebbe bene per la classifica ATP, che deve essere facilmente compresa sia dai giocatori che dagli appassionati. Ma sicuramente indica un direzione per soluzioni più semplici che potrebbero funzionare.

The Fatal Flaw of Nadal’s Two-Year Ranking System