Le Cinque Grandi Domande sull’analisi statistica nel tennis

di Jeff Sackmann // TennisAbstract

Pubblicato il 4 aprile 2017 – Traduzione di Edoardo Salvati

Decine di ricerche di piccolo cabotaggio che non trovano fra loro ovvia assonanza possono dare all’infante campo delle statistiche nel tennis un’apparenza piuttosto caotica. Alcune sembrano importanti ma incompiute, altre divertenti ma futili.

Voglio provare a imporre una struttura a questo flusso magmatico attraverso la classificazione dei temi oggetto di investigazione in quelle che chiamerò le Cinque Grandi Domande, ciascuna delle quali di fatto è solo un macro contenitore per altre centinaia. Come vedremo, in realtà ci sono sei categorie, e non cinque, a riprova che parlare di statistiche non significa semplicemente saper fare i conti.

  1. Qual’è la previsione di lungo periodo?

Al di là della prossima sequenza di tornei, che indicazioni forniscono le evidenze riguardo al futuro? È una domanda che si rivolge alle singole stagioni come a carriere intere. Quali sono le possibilità che Roger Federer torni a essere il numero 1 mondiale? Quanti Slam vincerà Nick Kyrgios? Quanto impiegherà Catherine Bellis a entrare tra le prime 10?

Le domande più importanti di questa categoria sono anche quelle per cui è più difficile trovare una risposta. Considerando i pochi dati a disposizione sui giocatori juniores, cosa si può prevedere – e a quale livello di confidenza – riguardo alla loro evoluzione? Sono domande per le quali le federazioni nazionali vorrebbero avere una risposta, e non sono naturalmente le uniche interessate. Tutti gli altri attori, dagli sponsor ai tornei alle famiglie dei giocatori stessi, desiderano individuare stelle future. Non solo, maggiore è la sofisticazione delle risposte, meglio si è in grado di affrontare i naturali sviluppi. Cosa possiamo fare noi (famiglie, allenatori, federazioni, etc), per aumentare le probabilità di successo di un giocatore?

2. Chi vincerà la prossima partita?

Anche la seconda domanda è relativa alle previsioni, ed è l’argomento che ha ricevuto – di gran lunga – la maggiore attenzione di tipo statistico. Non solo è divertente e avvincente cercare di pronosticare i vincitori, ma c’è anche un’enorme industria globale da miliardi di dollari costantemente orientata verso previsioni più accurate.

In qualità di analista, non mi interessa molto fare pronostici come attività fine a sé stessa, ma sono molto più attratto dalla sfida di identificare tutti i fattori che incidono sugli esiti delle partite, come il ruolo rivestito dalla stanchezza, o la preferenza di un giocatore per determinate condizioni di gioco, o ancora le caratteristiche specifiche di un scontro diretto tra due giocatori. I sistemi di valutazione dei giocatori rientrano in questa categoria, ed è importante ricordare che sono solo un mezzo previsionale, non un fine.

Come meta-domanda di questa categoria, ci si potrebbe chiedere che grado di accuratezza un sistema previsionale potrebbe mai raggiungere. Detto altrimenti, quanto influisce il caso sull’esito di una partita?

3. Quando e perché il modello “identico e indipendentemente distribuito” diventa inadatto?

Molte analisi sportive si basano sull’assunto che gli eventi che determinano il punteggio siano “identici e indipendentemente distribuiti”, vale a dire che fattori come le strisce vincenti, il vantaggio psicologico e il predominio nei momenti chiave siano inesistenti o impossibili da determinare con precisione. Nel caso del tennis, il modello iid potrebbe portare a pensare che una giocatrice converta palle break con la stessa frequenza con cui vince tutti i punti ai vantaggi, o che un giocatore tenga il servizio quando sta servendo per il set tanto spesso quanto tenga il servizio in generale.

La saggezza popolare è in forte disaccordo, ma raramente ha il pregio di essere coerente (“È difficile servire per il set” ma “Questo giocatore è particolarmente forte quando è avanti nel punteggio”). Questo si riduce a scomodare un diverso insieme di domande previsionali, un’altro ancora. Sappiamo che una giocatrice vince il 65% dei punti al servizio, ma quali sono le sue probabilità di vincere quel determinato punto, considerato il contesto di riferimento?

Sospetto che un’analisi approfondita rivelerà molte situazioni di disaccordo tra la realtà e il modello idd, specialmente quando riferite al singolo giocatore. Ancor più che per i primi due temi, le dimensioni limitate dal campione di dati a disposizione per molti specifici contesti costringe a essere sempre attenti nel distinguere ciò che veramente accade dal rumore di sottofondo e ricercare tendenze di lungo periodo.

4. Quanto è giocato bene un certo tipo di colpo?

Con l’aumento della varietà nella tipologia di dati a disposizione, le statistiche nel tennis diventeranno più granulari. Il Match Charting Project offre più di 3000 partite in cui ogni punto è descritto attraverso più parametri. Anche in assenza di dettagli su ogni colpo – come la posizione in campo, la velocità e la rotazione – è comunque possibile iniziare a determinare l’efficacia dei colpi di uno specifico giocatore, come nel caso del rovescio di Federer.

Con dati più granulari su ogni colpo, gli analisti riusciranno a essere ancora più precisi. Alla fine saremo in grado di conoscere l’effetto che cinque km/h in più nella velocità media di un dritto determinano, o il valore di un colpo giocato da appena dentro la linea di fondo invece che da appena fuori. Alcuni ricercatori – fra tutti Stephanie Kovalchik di OnTheT – hanno avviato approfondimenti su questo tipo di dati, e il futuro di questo ramo di indagine dipenderà in larga parte dall’eventuale condivisione pubblica di questi database.

5. Quanto è efficace un certo tipo di tattica?

L’analisi di un solo colpo ha i suoi limiti. A parte il servizio, ogni colpo nel tennis va contestualizzato, e anche i servizi di solito formano parte del contesto degli altri colpi. Molte delle domande di base relative alla tattica devono ancora essere quantificate, come ad esempio la frequenza vincente di un colpo di attacco sul rovescio dell’avversario invece che sul dritto.

Come per il tema precedente, le domande sulle tattiche diventano molto più interessanti, e immensamente più complicate, se dati della qualità di quelli raccolti dal sistema di moviola Hawkeye diventano disponibili. Con sufficienti informazioni sulla posizione, velocità e rotazione, saremo in grado di determinare il punto del campo e il tipo (e direzione) di colpo di attacco che da quel punto raggiunge la massima efficacia. Potremmo anche quantificare il rapporto costo/beneficio di spostarsi sul lato del rovescio per colpire di dritto: quanto bene deve essere giocato il dritto per bilanciare la debolezza che ne consegue in termini di posizione in campo?

Il Match Charting Project, in quanto sforzo collettivo di volontari, ha un raggio d’azione limitato. In definitiva, è un territorio che appartiene a chi possiede i dati che arrivano da sistemi di tracciatura sofisticati.

6. Qual’è l’organizzazione ideale del tennis?

Come ho anticipato, si tratta solo di cinque grandi domande. Prevedere carriere, partite, punti e quantificare colpi e tattiche significa per me esaudire l’intero spettro delle analisi statistiche di tennis.

Ci sono però poi numerose domande relative al tennis che possono inquadrarsi all’interno di un più ampio contesto di business. Come dovrebbero essere distribuiti i premi partita? Qual’è il sistema organizzativo che garantisca un bilanciamento di interessi tra veterani e nuovi arrivati? Ci sono troppi tornei di alta fascia o non ce ne sono a sufficienza? Che destino c’è in serbo per la Coppa Davis?

Molti di queste problematiche rimangono, per il momento, domande filosofiche la cui risposta è più una questione di preferenze o di istinto. Gli esperimenti mirati incontreranno sempre delle difficoltà anche solo per l’orizzonte temporale considerato: se il format della Coppa Davis viene modificato e perde poi di interesse, dove sta la causa e dove l’effetto? Non è un esperimento replicabile. Nonostante la sfida che pongono, queste sono grandi domande, e gli analisti potrebbero offrire un punto di vista molto prezioso.

Diamoci da fare quindi.

The Five Big Questions in Tennis Analytics

Verso una statistica granulare nel tennis

di Jeff Sackmann // TennisAbstract

Pubblicato il 19 agosto 2013 – Traduzione di Edoardo Salvati

Durante una recente conferenza stampa Roger Federer ha ammesso di non essere mai stato ossessionato dalle statistiche. E perché dovrebbe, quando commentatori e giornalisti tendono a focalizzarsi sulle solite macro-statistiche come palle break trasformate e punti vinti sulla seconda di servizio? Cioè quelle statistiche che, più un giocatore continua a vincere punti, più appaiono solide? E che fanno scoprire l’acqua calda tennistica, quella per la quale si ottengono risultati migliori quando si vincono più punti? Se fossi nella posizione di Federer, anche io non sarei ossessionato dalle statistiche. 

Se vogliamo che le statistiche siano uno strumento efficace per descrivere le prestazioni di un giocatore, dobbiamo concentrarci su quei numeri relativi a situazioni di gioco più direttamente controllabili dal giocatore stesso. Gli ace ad esempio – per quanto in parte legati alla bravura in risposta dell’avversario – sono una delle poche statistiche generalmente disponibili che danno evidenza diretta della prestazione un giocatore. Si può avere una giornata in cui il servizio funziona a pieno regime ma non si fanno molti ace e una giornata in cui le percentuali sono mediocri ma con più ace realizzati. Come regola di fondo, molti ace significa che si sta servendo bene, molti doppi falli significa che non si sta servendo bene.      

Prendiamo invece il caso dei punti vinti sulla seconda di servizio, una delle statistiche più citate dai commentatori. È una statistica che può dare indicazione, anche se marginale, della qualità della seconda di servizio. Ma è anche una statistica che tiene conto della capacità in risposta dell’avversario sulle seconde di servizio, oltre alla prestazione di entrambi i giocatori su quegli scambi che sono iniziati, a quel punto, quasi allo stesso livello. Se da un lato è fonte per ampi dibattiti sul tema, dall’altro la percentuale di punti vinti sulla seconda di servizio non offre utilità pratica per il singolo giocatore o per capire dove esattamente entrambi i giocatori si sono distinti durante la partita.

Statistiche granulari

Gli ace e i doppi falli sono validi indicatori del livello di gioco al servizio. (Sarebbe utile avere anche il numero di servizi vincenti non rappresentati da ace, visto che sono più simili agli ace di quanto non lo siano rispetto ai servizi che subiscono risposte, seppur non efficaci).   

Ma per tutti gli altri punti? E per strategie specifiche?

Un esempio ovvio di statistica base che dovrebbe essere conteggiata è la profondità della risposta al servizio. Certo, dipende anche dall’efficacia al servizio dell’avversario, ma si riferisce a una tipologia di colpo univoca e per di più in grado di decidere le sorti di una partita. Può essere definita con chiarezza e ha utilità pratica. Se un giocatore non riesce a mandare con continuità la risposta oltre la linea del servizio, perderà quasi sempre da un buon avversario. Rispondendo invece con continuità a poca distanza dalla riga di fondo, è in grado di neutralizzare gran parte del vantaggio di chi serve.

Ecco un elenco di altre statistiche granulari con lo stesso potenziale informativo:

  • Percentuale di risposte in slice o in chip
  • Percentuale di rovesci in slice o in chip
  • Servizi (e altri colpi) in rete, rispetto a altri tipi di errori
  • Varietà e direzione dei colpi, ad esempio rovescio lungolinea rispetto a rovescio incrociato o al centro
  • Approcci a rete
  • Percentuale di successo delle palle corte (da entrambi i lati)

Due statistiche ampiamente disponibili, errori non forzati e vincenti, possiedono elementi comuni alle statistiche granulari, ma non sono sufficientemente specifiche. Conoscere il rapporto vincenti/non forzati è certamente indicazione del livello di gioco espresso da un giocatore in una determinata partita, ma cosa se ne ricava esattamente? Federer deve essere meno distratto? Deve giocare più vincenti? Ancora una volta, è facile capire perché i professionisti non scalpitino per conoscere questi numeri. Nel baseball, nessun lanciatore ricava benefici dal sapere che dovrebbe concedere meno punti, o nell’hockey un portiere che debba concedere meno goal.   

Un barlume di speranza

Se ci fosse la possibilità di accedere ai dati raccolti tramite il sistema Hawkeye, questo tipo di analisi (e moltissimo altro) sarebbero alla portata. Anche se Hawkeye rimane a uso esclusivo dell’ATP, la direzione presa da SAP e dalla WTA lascia ben sperare per un numero maggiore di statistiche granulari nel tennis.

Nel frattempo, dovremo arrangiarci da soli.

Toward Atomic Statistics