Per delle Chiavi del Match più semplici ed efficaci – Gemme degli US Open

di Jeff Sackmann // TennisAbstract

Pubblicato il 10 settembre 2013 – Traduzione di Edoardo Salvati

L’ottavo articolo della serie Gemme degli US Open.

Se avete seguito gli US Open 2013 o visitato il sito internet in qualsiasi momento delle ultime due settimane, non potete non aver notato la presenza di IBM. Loghi e inserzioni pubblicitarie erano ovunque e anche altre fonti informative di solito affidabili non si sono tirate certamente indietro nel sottolineare le capacità statistiche di ultima generazione in possesso della società americana.

Particolarmente difficili da evitare sono state le “Chiavi del Match” (“Keys to the Match”) di IBM, tre indicatori a partita per giocatore. Il nome e la natura delle “chiavi” richiamano con decisione un certo potere predittivo: IBM definisce l’offerta statistica di tennis come “analisi predittiva” e non perde occasione per elogiare il database di 41 milioni di dati punto per punto di cui è proprietaria.

Eppure, come ha scritto Carl Bialik sul Wall Street Journal, non sono analisi così predittive.

Capita spesso di accorgersi che lo sconfitto ha raggiunto più obiettivi espressi dalle “chiavi” rispetto al vincitore, come è stato per la semifinale tra Novak Djokovic e Stanislas Wawrinka. Anche quando il vincitore ha catturato più chiavi, alcuni degli indicatori sono parsi quasi del tutto irrilevanti, come “giocare in media meno di 6.5 punti per game al servizio”, la chiave che Nadal non è riuscito a rispettare nella vittoria in finale.

Stando a un rappresentante di IBM, il gruppo di persone che lavora al progetto è alla ricerca di statistiche “inusuali”, e direi che ci sono riusciti. Il tennis però è un gioco semplice e, a meno di non spacchettare l’analisi ed evidenziare aspetti che nessun altro ha mai approfondito, ci sono solo alcune statistiche che contano davvero. Nella ricerca dell’inusuale, IBM ha lasciato indietro il predittivo.

IBM contro le “chiavi generiche”

IBM ha offerto le Chiavi del Match per 86 delle 127 partite di singolare maschile degli US Open 2013. In 20 di quelle partite, lo sconfitto ha raggiunto lo stesso numero o più chiavi di quelle raggiunte dal vincitore. In media, il vincitore di ciascuna partita ha raggiunto 1.13 chiavi in più dello sconfitto.

Si tratta della migliore prestazione di IBM per la stagione in corso. A Wimbledon 2015, i vincitori hanno raggiunto in media 1.02 chiavi in più degli sconfitti e, in 24 partite, lo sconfitto ha raggiunto lo stesso numero o più chiavi del vincitore. Al Roland Garros 2015, i numeri sono stati 0.98 e 21 partite, e agli Australian Open 2015 1.08 e 21 partite.

In assenza di parametri di riferimento, è difficile giudicare sulla bontà di questi numeri. Come ha fatto notare Bialik: “Forse il tennis è così complicato da analizzare che queste chiavi sono più efficaci di quanto chiunque altro potrebbe fare senza la montagna di dati di IBM e complessi modelli computerizzati”.

Non è così difficile. Anzi, i milioni di dati punto per punto e la ventina di statistiche “inusuali” di IBM sono la complicazione di ciò che potrebbe essere estremamente semplice.

Ho messo alla prova alcune statistiche di base per verificare se potessero esserci degli indicatori più diretti in grado di restituire risultati migliori di quelli di IBM (Bialik le definisce “chiavi di Sackmann”, ma le chiamerò “chiavi generiche”). È straordinaria la facilità con cui ho creato un gruppo di chiavi generiche che pareggiassero i numeri di IBM o facessero leggermente meglio.

Non stupisce che due delle statistiche più efficaci siano la percentuale di punti vinti sulla prima di servizio e sulla seconda di servizio. Ne parlerò in altri articoli, ma queste statistiche – e altre – mostrano sorprendente discontinuità. Vale a dire, esiste un chiaro livello al quale uno o due punti percentuali addizionali fanno una grande differenza per la probabilità di vittoria di un giocatore. Sono dettagli fatti apposta per essere incorporati nelle chiavi.

Per la terza chiave, ho provato con la percentuale di prime di servizio, che non possiede un potere predittivo simile a quello delle due precedenti statistiche, ma il vantaggio di non avere con loro un’evidente correlazione. Un giocatore può avere un’alta percentuale di prime di servizio ma una bassa frequenza di punti vinti con la prima o con la seconda di servizio, e viceversa. E, contrariamente a certa saggezza popolare tennistica, non sembra esserci un livello alto di percentuale di prime di servizio oltre al quale altre prime in campo diventano un fattore negativo. Non è una relazione lineare, ma più prime di servizio rimangono dentro, maggiore è la probabilità di vittoria.

Mettendo tutto insieme, si ottengono tre chiavi generiche:

  • Percentuale di punti vinti sulla prima di servizio superiore al 74%
  • Percentuale di punti vinti sulla seconda di servizio superiore al 52%
  • Percentuale di prime di servizio superiore al 62%.

Sono percentuali che derivano dai risultati degli ultimi anni sul circuito maggiore per tutte le superfici a eccezione della terra battuta. Per semplicità, ho raggruppato l’erba, il cemento e il cemento indoor, anche se tenendole separate si potrebbe arrivare a indicatori leggermente più predittivi.

Nelle 86 partite degli US Open in cui erano disponibili le Chiavi del Match di IBM, le chiavi generiche hanno ottenuto risultati di poco superiori. Utilizzando i miei indicatori – gli stessi tre per ciascun giocatore – lo sconfitto ha raggiunto lo stesso numero o più chiavi del vincitore 16 volte (rispetto alle 20 di IBM) e il vincitore ha raggiunto in media 1.15 chiavi in più dello sconfitto (rispetto alle 1.13 di IBM). Per gli altri Slam, i risultati ottenuti sono simili (con soglie leggermente diverse per la terra battuta del Roland Garros).

Un pianeta più brillante

Non è casuale che la più semplice e più generica impostazione per la definizione di chiavi abbia restituito risultati migliori di quelli dati dall’attenzione di IBM per la complessità e gli aspetti inusuali. Aiuta anche il fatto che le chiavi generiche siano espressione di una conoscenza specializzata (per quanto rudimentale) del campo di applicazione in questione, mentre molte delle Chiavi del Match di IBM, come la velocità media della prima di servizio inferiore a un dato numero di km/h o la durata dei set misurata in minuti, siano invece espressione di ignoranza del campo di applicazione in questione.

Inoltre, commenti dei rappresentanti di IBM suggeriscono che il marketing sia più importante dell’accuratezza. L’articolo di Bialik ha citato le parole “Non è predittivo” di un esponente dell’azienda, nonostante i grandi e colorati cartelloni pubblicitari sparsi in tutto il complesso in cui si giocano gli US Open sostenessero esattamente il contrario. “Coinvolgimento” è il termine che continua a essere ripetuto come un mantra, anche se numeri inusuale che coinvolgono possono non aver nulla a che spartire con l’esito delle partite, e molto del coinvolgimento che ho visto negli appassionati è negativo.

Dopotutto, il vecchio adagio forse ha la sua ragion d’essere: fintantoché pronunciano correttamente il tuo nome, è tutta pubblicità positiva. E non è difficile pronunciare “IBM”.

Chiavi migliori, più consapevolezza

Offuscati dallo sforzo di marketing, è facile perdere di vista il fatto che l’idea delle chiavi di analisi di una partita sia effettivamente valida. I commentatori spesso parlano di raggiungere determinati traguardi, come ad esempio mettere il 70% delle prime. Per quanto ne sappia però, nessuno si è premunito di fare ricerche al riguardo.

Con le chiavi generiche come punto di partenza, potrebbe diventare un percorso molto più interessante. Anche se questi numeri sono dei buoni indicatori di prestazione sul cemento, sono suscettibili di ulteriori sviluppi, principalmente con aggiustamenti specifici per singolo giocatore. Il 74% dei punti vinti sulla prima di servizio è funzionale con un giocatore alla risposta medio, ma con un giocatore alla risposta più scadente come John Isner? La sua percentuale di punti vinti sulla prima di servizio quest’anno è vicina al 79%, a suggerire che è per lui il numero di riferimento per battere la maggior parte degli avversari. Per altri invece potrebbe essere cruciale una frequenza più alta di prime di servizio. O ancora, le soglie di alcuni giocatori potrebbero subire ampie e nette variazioni in funzione della superficie.

Tornerò sul tema in articoli futuri, scendendo nel dettaglio di queste chiavi generiche e cercando di campire come possano essere migliorate. Fare meglio di IBM è gratificante, ma se l’obiettivo è davvero “un pianeta più brillante”, c’è ancora molta ricerca da portare avanti.

Simpler, Better Keys to the Match

Colpire le linee – Australian Open Series

di Stephanie Kovalchik // OnTheT

Pubblicato il 29 ottobre 2016 – Traduzione di Edoardo Salvati

Il primo articolo dell’Australian Open Series.

Dopo aver analizzato la velocità del rovescio a rimbalzo – grazie alle nuove statistiche a disposizione sulla qualità dei colpi nel tennis – è il momento di valutare l’accuratezza dei colpi a rimbalzo, nello specifico la frequenza con cui un colpo finisce vicino alle linee di delimitazione del campo.

Stabilire se la pallina colpisca un punto del campo vicino alla linea è, ovviamente, una valutazione soggettiva. In questa sede, utilizzo il termine “vicino” per indicare quei colpi a 3 palline (circa 21 cm) di distanza dalla linea. Come nell’articolo precedente, le statistiche arrivano dal lavoro del Game Insight Group di Tennis Australia e si riferiscono alle edizioni degli Australian Open tra il 2014 e il 2016.

Tra tutti i colpi a rimbalzo, quelli vicino alla linea sono in realtà piuttosto rari. Per gli uomini rientrano tra il 2 e il 7%, a indicazione del fatto che nella maggior parte degli scambi la pallina termina più verso il centro del campo di quanto ci si potesse attendere.

Considerando che solo i giocatori più propensi al gioco di attacco o quelli che intendono chiudere il punto velocemente (tipo i grandi servitori come John Isner) ricercano la linea con maggiore frequenza, sarebbe meglio misurare l’accuratezza dei colpi all’interno del sottoinsieme di quelli che vengono colpiti in direzione delle linee. Pur non conoscendo le intenzioni di un giocatore prima che giochi il colpo, è ipotizzabile dedurre che i colpi in cui la pallina sia più vicina alla linea che al centro del campo siano stati tirati mirando la linea. È probabile che una buona parte di questi colpi finirà a un metro dalla linea (laterale o di fondo), cioè nell’area evidenziata in giallo nel disegno.

I valori rappresentati dalle bolle verdi nell’immagine 1 mostrano, in percentuale, il numero di colpi di questo sottoinsieme che finiscono vicino alla linea (nella versione originale è possibile visualizzare i singoli valori puntando il mouse su ciascuna bolla, n.d.t.).

IMMAGINE 1 – Frequenza dei colpi a rimbalzo vicini alla linea per il tennis maschile, Australian Open 2014-16

Con il 27%, John Isner è in cima a questa classifica, come il suo stile di gioco rapido e di attacco può indurre a pensare. Altri tre giocatori dal grande servizio simili a Isner, cioè Sam Querrey, Sam Groth e Marin Cilic sono nella parte alta con frequenze del 21% o superiori. I giocatori di vertice si posizionano nell’intervallo tra il 15 e il 20%, a eccezione di Andy Murray e David Ferrer, con frequenze del 13%. Queste speciali classifiche relative agli Australian Open suggeriscono che giocatori con colpi a rimbalzo che finiscono, in media, più vicini alle linee sono quelli sul circuito con una più spiccata predisposizione al gioco di attacco.

Le donne mostrano dinamiche di ricerca delle linee simili a quelle maschili. Ci sono meno giocatrici che raggiungono percentuali del 20% o superiori – anche restringendo il perimetro ai soli colpi a un metro dalla linea – ma quelle che ci riescono si distinguono, come accade tra gli uomini, per un gioco orientato all’attacco, come Sabine Lisicki, Madison Keys e Monica Puig.

Rispetto agli uomini, ci sono meno giocatrici raggruppate nell’intervallo tra il 15 e il 20%, mentre ce ne sono in numero maggiore tra il 10 e il 15%. Sorprendentemente, Serena Williams, la cui potenza di colpo è ben conosciuta, è nella zona bassa della classifica, probabilmente perché la sua decisione di tirare i colpi importanti vicino alle linee è più meditata di quanto si possa apprezzare guardandola giocare. È più normale trovare giocatrici come Agnieszka Radwanska e Carla Suarez Navarro in questa zona della classifica, visto il loro gioco difensivo.

Un lettore ha commentato il precedente l’articolo domandandosi se vi fossero differenze nella tipologia di palline usate agli Australian Open dagli uomini e dalle donne e se questo potesse giustificare eventuali discrepanze nelle caratteristiche dei colpi. La tipologia sicuramente influisce sulla velocità e sulla rotazione della pallina. Dal 2014 al 2016 agli Australian Open sono state usate palline Wilson Tipo 2 (secondo la classificazione della Federazione Internazionale) sia in campo maschile che in campo femminile.

IMMAGINE 2 – Frequenza dei colpi a rimbalzo vicini alla linea per il tennis femminile, Australian Open 2014 – 16

La conclusione più significativa che deriva da quest’analisi sull’accuratezza dei colpi è relativa alla rarità dei colpi sulla linea rispetto a tutti i colpi a rimbalzo in una partita, e non solo quelli che determinano la conclusione del punto. Quindi, la prossima volta che vediamo gli spettatori andare in visibilio per un colpo che ha preso la linea, sapremo che hanno effettivamente assistito a qualcosa di speciale.

AO Leaderboard— Line Hitting