Il più grande archivio italiano di analisi statistiche sul tennis professionistico. Parte di Tennis Abstract

Probabilmente il più grande archivio italiano di analisi statistiche sul tennis professionistico. Parte di Tennis Abstract

Per delle Chiavi del Match più semplici ed efficaci – Gemme degli US Open

ULTIMI ARTICOLI

ULTIMI ARTICOLI

Pubblicato il 10 settembre 2013 su TennisAbstract – Traduzione di Edoardo Salvati

// L’ottavo articolo della serie Gemme degli US Open.

Se avete seguito gli US Open 2013 o visitato il sito internet in qualsiasi momento delle ultime due settimane, non potete non aver notato la presenza di IBM. Loghi e inserzioni pubblicitarie erano ovunque, e anche altre fonti informative di solito affidabili non si sono tirate certamente indietro nel sottolineare le capacità statistiche di ultima generazione in possesso della società americana.

Analisi non proprio predittive

Particolarmente difficili da evitare sono state le “Chiavi del Match” (“Keys to the Match”) di IBM, tre indicatori a partita per giocatore. Il nome e la natura delle “chiavi” richiamano con decisione un certo potere predittivo: IBM definisce l’offerta statistica di tennis come “analisi predittiva” e non perde occasione per elogiare il database di 41 milioni di dati punto per punto di cui è proprietaria.

Eppure, come ha scritto Carl Bialik sul Wall Street Journal, non sono analisi così predittive.

Capita spesso di accorgersi che lo sconfitto ha raggiunto più obiettivi espressi dalle “chiavi” rispetto al vincitore, come è stato per la semifinale tra Novak Djokovic e Stanislas Wawrinka. Anche quando il vincitore ha catturato più chiavi, alcuni degli indicatori sono parsi quasi del tutto irrilevanti, come “giocare in media meno di 6.5 punti per game al servizio”, la chiave che Nadal non è riuscito a rispettare nella vittoria in finale.

Stando a un rappresentante di IBM, il gruppo di persone che lavora al progetto è alla ricerca di statistiche “inusuali”, e direi che ci sono riusciti. Il tennis però è un gioco semplice e, a meno di non spacchettare l’analisi ed evidenziare aspetti che nessun altro ha mai approfondito, ci sono solo alcune statistiche che contano davvero. Nella ricerca dell’inusuale, IBM ha lasciato indietro il predittivo.

IBM contro le “chiavi generiche”

IBM ha offerto le Chiavi del Match per 86 delle 127 partite di singolare maschile degli US Open 2013. In 20 di quelle partite, lo sconfitto ha raggiunto lo stesso numero o più chiavi di quelle raggiunte dal vincitore. In media, il vincitore di ciascuna partita ha raggiunto 1.13 chiavi in più dello sconfitto.

Si tratta della migliore prestazione di IBM per la stagione in corso. A Wimbledon 2015, i vincitori hanno raggiunto in media 1.02 chiavi in più degli sconfitti e, in 24 partite, lo sconfitto ha raggiunto lo stesso numero o più chiavi del vincitore. Al Roland Garros 2015, i numeri sono stati 0.98 e 21 partite, e agli Australian Open 2015 1.08 e 21 partite.

In assenza di parametri di riferimento, è difficile giudicare sulla bontà di questi numeri. Come ha fatto notare Bialik: “Forse il tennis è così complicato da analizzare che queste chiavi sono più efficaci di quanto chiunque altro potrebbe fare senza la montagna di dati di IBM e complessi modelli computerizzati”.

Non è così difficile. Anzi, i milioni di dati punto per punto e la ventina di statistiche “inusuali” di IBM sono la complicazione di ciò che potrebbe essere estremamente semplice.

Percentuale di punti vinti sulla prima e sulla seconda

Ho messo alla prova alcune statistiche di base per verificare se potessero esserci degli indicatori più diretti in grado di restituire risultati migliori di quelli di IBM (Bialik le definisce “chiavi di Sackmann”, ma le chiamerò “chiavi generiche”). È straordinaria la facilità con cui ho creato un gruppo di chiavi generiche che pareggiassero i numeri di IBM o facessero leggermente meglio.

Non stupisce che due delle statistiche più efficaci siano la percentuale di punti vinti sulla prima di servizio e sulla seconda di servizio. Ne parlerò in altri articoli, ma queste statistiche – e altre – mostrano sorprendente discontinuità. Vale a dire, esiste un chiaro livello al quale uno o due punti percentuali addizionali fanno una grande differenza per la probabilità di vittoria di un giocatore. Sono dettagli fatti apposta per essere incorporati nelle chiavi.

Percentuale di prime

Per la terza chiave, ho provato con la percentuale di prime di servizio, che non possiede un potere predittivo simile a quello delle due precedenti statistiche, ma il vantaggio di non avere con loro un’evidente correlazione. Un giocatore può avere un’alta percentuale di prime di servizio ma una bassa frequenza di punti vinti con la prima o con la seconda di servizio, e viceversa. E, contrariamente a certa saggezza popolare tennistica, non sembra esserci un livello alto di percentuale di prime di servizio oltre al quale altre prime in campo diventano un fattore negativo. Non è una relazione lineare, ma più prime di servizio rimangono dentro, maggiore è la probabilità di vittoria.

Mettendo tutto insieme, si ottengono tre chiavi generiche:

  • Percentuale di punti vinti sulla prima di servizio superiore al 74%
  • Percentuale di punti vinti sulla seconda di servizio superiore al 52%
  • Percentuale di prime di servizio superiore al 62%.

Sono percentuali che derivano dai risultati degli ultimi anni sul circuito maggiore per tutte le superfici a eccezione della terra battuta. Per semplicità, ho raggruppato l’erba, il cemento e il cemento indoor, anche se tenendole separate si potrebbe arrivare a indicatori leggermente più predittivi.

Nelle 86 partite degli US Open in cui erano disponibili le Chiavi del Match di IBM, le chiavi generiche hanno ottenuto risultati di poco superiori. Utilizzando i miei indicatori – gli stessi tre per ciascun giocatore – lo sconfitto ha raggiunto lo stesso numero o più chiavi del vincitore 16 volte (rispetto alle 20 di IBM) e il vincitore ha raggiunto in media 1.15 chiavi in più dello sconfitto (rispetto alle 1.13 di IBM). Per gli altri Slam, i risultati ottenuti sono simili (con soglie leggermente diverse per la terra battuta del Roland Garros).

Un pianeta più brillante

Non è casuale che la più semplice e più generica impostazione per la definizione di chiavi abbia restituito risultati migliori di quelli dati dall’attenzione di IBM per la complessità e gli aspetti inusuali. Aiuta anche il fatto che le chiavi generiche siano espressione di una conoscenza specializzata (per quanto rudimentale) del campo di applicazione in questione, mentre molte delle Chiavi del Match di IBM, come la velocità media della prima di servizio inferiore a un dato numero di km/h o la durata dei set misurata in minuti, siano invece espressione di ignoranza del campo di applicazione in questione.

Inoltre, commenti dei rappresentanti di IBM suggeriscono che il marketing sia più importante dell’accuratezza. L’articolo di Bialik ha citato le parole “Non è predittivo” di un esponente dell’azienda, nonostante i grandi e colorati cartelloni pubblicitari sparsi in tutto il complesso in cui si giocano gli US Open sostenessero esattamente il contrario. “Coinvolgimento” è il termine che continua a essere ripetuto come un mantra, anche se numeri inusuali che coinvolgono possono non aver nulla a che spartire con l’esito delle partite, e molto del coinvolgimento che ho visto negli appassionati è negativo.

Dopotutto, il vecchio adagio forse ha la sua ragion d’essere: fintantoché pronunciano correttamente il tuo nome, è tutta pubblicità positiva. E non è difficile pronunciare “IBM”.

Chiavi migliori, più consapevolezza

Offuscati dallo sforzo di marketing, è facile perdere di vista il fatto che l’idea delle chiavi di analisi di una partita sia effettivamente valida. I commentatori spesso parlano di raggiungere determinati traguardi, come ad esempio mettere il 70% delle prime. Per quanto ne sappia però, nessuno si è premunito di fare ricerche al riguardo.

Con le chiavi generiche come punto di partenza, potrebbe diventare un percorso molto più interessante. Anche se questi numeri sono dei buoni indicatori di prestazione sul cemento, sono suscettibili di ulteriori sviluppi, principalmente con aggiustamenti specifici per singolo giocatore.

Il 74% dei punti vinti sulla prima di servizio è funzionale con un giocatore alla risposta medio, ma con un giocatore alla risposta più scadente come John Isner? La sua percentuale di punti vinti sulla prima di servizio quest’anno è vicina al 79%, a suggerire che è per lui il numero di riferimento per battere la maggior parte degli avversari. Per altri invece potrebbe essere cruciale una frequenza più alta di prime di servizio. O ancora, le soglie di alcuni giocatori potrebbero subire ampie e nette variazioni in funzione della superficie.

Tornerò sul tema in articoli futuri, scendendo nel dettaglio di queste chiavi generiche e cercando di capire come possano essere migliorate. Fare meglio di IBM è gratificante, ma se l’obiettivo è davvero “un pianeta più brillante”, c’è ancora molta ricerca da portare avanti. ◼︎

Simpler, Better Keys to the Match

DELLO STESSO AUTORE