Le Cinque Grandi Domande sull’analisi statistica nel tennis

di Jeff Sackmann // TennisAbstract

Pubblicato il 4 aprile 2017 – Traduzione di Edoardo Salvati

Decine di ricerche di piccolo cabotaggio che non trovano fra loro ovvia assonanza possono dare all’infante campo delle statistiche nel tennis un’apparenza piuttosto caotica. Alcune sembrano importanti ma incompiute, altre divertenti ma futili.

Voglio provare a imporre una struttura a questo flusso magmatico attraverso la classificazione dei temi oggetto di investigazione in quelle che chiamerò le Cinque Grandi Domande, ciascuna delle quali di fatto è solo un macro contenitore per altre centinaia. Come vedremo, in realtà ci sono sei categorie, e non cinque, a riprova che parlare di statistiche non significa semplicemente saper fare i conti.

1. Qual è la previsione di lungo periodo?

Al di là della prossima sequenza di tornei, che indicazioni forniscono le evidenze riguardo al futuro? È una domanda che si rivolge alle singole stagioni come a carriere intere. Quali sono le possibilità che Roger Federer torni a essere il numero 1 mondiale? Quanti Slam vincerà Nick Kyrgios? Quanto impiegherà Catherine Bellis a entrare tra le prime 10?

Le domande più importanti di questa categoria sono anche quelle per cui è più difficile trovare una risposta. Considerando i pochi dati a disposizione sui giocatori juniores, cosa si può prevedere – e a quale livello di confidenza – riguardo alla loro evoluzione? Sono domande per le quali le federazioni nazionali vorrebbero avere una risposta, e non sono naturalmente le uniche interessate. Tutti gli altri attori, dagli sponsor ai tornei alle famiglie dei giocatori stessi, desiderano individuare stelle future. Non solo, maggiore è la sofisticazione delle risposte, meglio si è in grado di affrontare i naturali sviluppi. Cosa possiamo fare noi (famiglie, allenatori, federazioni, etc), per aumentare le probabilità di successo di un giocatore?

2. Chi vincerà la prossima partita?

Anche la seconda domanda è relativa alle previsioni, ed è l’argomento che ha ricevuto – di gran lunga – la maggiore attenzione di tipo statistico. Non solo è divertente e avvincente cercare di pronosticare i vincitori, ma c’è anche un’enorme industria globale da miliardi di dollari costantemente orientata verso previsioni più accurate.

In qualità di analista, non mi interessa molto fare pronostici come attività fine a sé stessa, ma sono molto più attratto dalla sfida di identificare tutti i fattori che incidono sugli esiti delle partite, come il ruolo rivestito dalla stanchezza, o la preferenza di un giocatore per determinate condizioni di gioco, o ancora le caratteristiche specifiche di un scontro diretto tra due giocatori. I sistemi di valutazione dei giocatori rientrano in questa categoria, ed è importante ricordare che sono solo un mezzo previsionale, non un fine.

Come meta-domanda di questa categoria, ci si potrebbe chiedere che grado di accuratezza un sistema previsionale potrebbe mai raggiungere. Detto altrimenti, quanto influisce il caso sull’esito di una partita?

3. Quando e perché il modello “identico e indipendentemente distribuito” diventa inadatto?

Molte analisi sportive si basano sull’assunto che gli eventi che determinano il punteggio siano “identici e indipendentemente distribuiti”, vale a dire che fattori come le strisce vincenti, il vantaggio psicologico e il predominio nei momenti chiave siano inesistenti o impossibili da determinare con precisione. Nel caso del tennis, il modello iid potrebbe portare a pensare che una giocatrice converta palle break con la stessa frequenza con cui vince tutti i punti ai vantaggi, o che un giocatore tenga il servizio quando sta servendo per il set tanto spesso quanto tenga il servizio in generale.

La saggezza popolare è in forte disaccordo, ma raramente ha il pregio di essere coerente (“È difficile servire per il set” ma “Questo giocatore è particolarmente forte quando è avanti nel punteggio”). Questo si riduce a scomodare un diverso insieme di domande previsionali, un’altro ancora. Sappiamo che una giocatrice vince il 65% dei punti al servizio, ma quali sono le sue probabilità di vincere quel determinato punto, considerato il contesto di riferimento?

Sospetto che un’analisi approfondita rivelerà molte situazioni di disaccordo tra la realtà e il modello idd, specialmente quando riferite al singolo giocatore. Ancor più che per i primi due temi, le dimensioni limitate dal campione di dati a disposizione per molti specifici contesti costringe a essere sempre attenti nel distinguere ciò che veramente accade dal rumore di sottofondo e ricercare tendenze di lungo periodo.

4. Quanto è giocato bene un certo tipo di colpo?

Con l’aumento della varietà nella tipologia di dati a disposizione, le statistiche nel tennis diventeranno più granulari. Il Match Charting Project offre più di 3000 partite in cui ogni punto è descritto attraverso più parametri. Anche in assenza di dettagli su ogni colpo – come la posizione in campo, la velocità e la rotazione – è comunque possibile iniziare a determinare l’efficacia dei colpi di uno specifico giocatore, come nel caso del rovescio di Federer.

Con dati più granulari su ogni colpo, gli analisti riusciranno a essere ancora più precisi. Alla fine saremo in grado di conoscere l’effetto che cinque km/h in più nella velocità media di un dritto determinano, o il valore di un colpo giocato da appena dentro la linea di fondo invece che da appena fuori. Alcuni ricercatori – fra tutti Stephanie Kovalchik di OnTheT – hanno avviato approfondimenti su questo tipo di dati, e il futuro di questo ramo di indagine dipenderà in larga parte dall’eventuale condivisione pubblica di questi database.

5. Quanto è efficace un certo tipo di tattica?

L’analisi di un solo colpo ha i suoi limiti. A parte il servizio, ogni colpo nel tennis va contestualizzato, e anche i servizi di solito formano parte del contesto degli altri colpi. Molte delle domande di base relative alla tattica devono ancora essere quantificate, come ad esempio la frequenza vincente di un colpo di attacco sul rovescio dell’avversario invece che sul dritto.

Come per il tema precedente, le domande sulle tattiche diventano molto più interessanti, e immensamente più complicate, se dati della qualità di quelli raccolti dal sistema di moviola Hawkeye diventano disponibili. Con sufficienti informazioni sulla posizione, velocità e rotazione, saremo in grado di determinare il punto del campo e il tipo (e direzione) di colpo di attacco che da quel punto raggiunge la massima efficacia. Potremmo anche quantificare il rapporto costo/beneficio di spostarsi sul lato del rovescio per colpire di dritto: quanto bene deve essere giocato il dritto per bilanciare la debolezza che ne consegue in termini di posizione in campo?

Il Match Charting Project, in quanto sforzo collettivo di volontari, ha un raggio d’azione limitato. In definitiva, è un territorio che appartiene a chi possiede i dati che arrivano da sistemi di tracciatura sofisticati.

6. Qual è l’organizzazione ideale del tennis?

Come ho anticipato, si tratta solo di cinque grandi domande. Prevedere carriere, partite, punti e quantificare colpi e tattiche significa per me esaudire l’intero spettro delle analisi statistiche di tennis.

Ci sono però poi numerose domande relative al tennis che possono inquadrarsi all’interno di un più ampio contesto di business. Come dovrebbero essere distribuiti i premi partita? Qual’è il sistema organizzativo che garantisca un bilanciamento di interessi tra veterani e nuovi arrivati? Ci sono troppi tornei di alta fascia o non ce ne sono a sufficienza? Che destino c’è in serbo per la Coppa Davis?

Molti di queste problematiche rimangono, per il momento, domande filosofiche la cui risposta è più una questione di preferenze o di istinto. Gli esperimenti mirati incontreranno sempre delle difficoltà anche solo per l’orizzonte temporale considerato: se il format della Coppa Davis viene modificato e perde poi di interesse, dove sta la causa e dove l’effetto? Non è un esperimento replicabile.

Nonostante la sfida che pongono, queste sono grandi domande, e gli analisti potrebbero offrire un punto di vista molto prezioso.

Diamoci da fare quindi.

The Five Big Questions in Tennis Analytics