Rendimenti superiori in Coppa Davis

di Peter Wetz // TennisAbstract

Pubblicato il 4 dicembre 2017 – Traduzione di Edoardo Salvati

Le valutazioni Elo specifiche per superficie sono uno strumento molto efficace per valutare il rendimento di un giocatore. La tradizionale conclusione della stagione, con la finale di Coppa Davis, offre nuovamente la possibilità di verificare quali giocatori diano il meglio difendendo i colori della propria nazione e quali invece subiscano la pressione dettata dall’importanza dell’evento (per inciso, non sono un estimatore della parola offseason, che definisce l’intervallo temporale tra la fine della stagione regolare e la sua ripresa l’anno successivo, perché ci sono comunque tornei del circuito ITF e i play-off di assegnazione delle wild card per gli Australian Open 2018).

Come già accennato, le valutazioni Elo si sono dimostrate un metodo migliore per rappresentare la bravura di un giocatore rispetto alla classifica ufficiale ATP. Quindi, mettere a confronto le vittorie attese rispetto a quanto previsto da Elo con le vittorie effettive consente di avere un’idea più chiara su quali giocatori abbiano mantenuto un rendimento superiore alle aspettative.

Ai fini di questa valutazione, il perimetro di analisi comprende tutte le partite del World Group e del Group 1 dal 1980. Si tratta di un campione con circa 5000 partite, fino ai quarti di finale del World Group 2017, in cui compaiono solo i giocatori con almeno quindici partite giocate.

Iniziamo con la statistica più immediata, la percentuale vittorie-sconfitte. La tabella mostra i primi dieci record vittorie-sconfitte di tutti i giocatori del campione (l’ultima colonna evidenzia quelli ancora in attività).

Giocatore    Vitt  Sconf  Perc   Attivi
Nadal	     20	   1      95%    1
Becker	     31	   2      94%    0
Murray	     25	   3      90%    1
Taroczy	     23	   3      89%    0
Ferrer	     20	   3      87%    1
Agassi	     23	   4      85%    0
Federer	     40	   7      85%    1
Djokovic     27	   5      84%    1
Vilas	     16	   3      84%    0
Medvedev     16	   3      84%    0

Come prevedibile, si trovano nell’elenco i Fantastici Quattro e altri grandi di sempre. La storia però non finisce qui. Ci si aspetta da Rafael Nadal la vittoria della maggior parte delle partite, ed effettivamente così accade. Per un giocatore come lui, è difficile superare le aspettative.

Se calcoliamo quanto un giocatore riesca ad andare oltre le attese, otteniamo una fotografia più nitida della situazione, visto anche che siamo alla ricerca dei più forti in Coppa Davis. Le vittorie attese sono calcolate sulla base di un’equa ripartizione tra Elo specifico per superficie e Elo complessivo, metodo che si è dimostrato essere superiore nel fornire risultati più accurati.

La tabella mostra i migliori e i peggiori cinque giocatori in assoluto (prima tabella) e tra quelli in attività (seconda tabella) in termini di rendimento superiore e inferiore (over/under o +/-) rispetto alle vittorie attese. La colonna “V” è relativa alle vittorie effettive, la “Va” sono le vittorie attese, “+/-“ è la percentuale di rendimento over/under, “attivi” sono i giocatori in attività.

Giocatore    V	  Va	+/-	Attivi
Maciel       11	  6	72%	0
Zivojinovic  20	  11	72%	0
Pospisil     9	  5	71%	1
Ungur	     6	  3	56%	1
Bhupathi     5	  3	55%	0
...
Masur        7	  10    -31%	0
Lareau       7	  10    -31%	0
Blake	     7	  10    -36%	0
Kiefer	     6	  10    -40%	0
Khan	     2	  4     -57%	0
Giocatore    V	  Va	+/-	Attivi
Pospisil     9	  5	71%	1
Ungur	     6	  3	56%	1
Golubev	     13	  8	46%	1
Wu	     14	  9	45%	1
Darcis	     15	  11	35%	1
...
Mayer	     7	  8     -14%	1
Muller	     9	  10    -15%	1
Falla	     8	  9     -17%	1
Isner	     9	  11    -19%	1
Melzer	     20	  25    -22%	1

I risultati sembrano dare credito ad alcuni postulati della saggezza popolare tennistica. Ad esempio, che Steve Darcis, nonostante la recente sconfitta nella finale contro la Francia, superi le aspettative. O che Jurgen Melzer sia noto per deludere regolarmente i tifosi austriaci (in sua difesa, ha regalato anche molti momenti di gioia).

Nella scelta di un eroe della Coppa Davis tra i giocatori in attività e quelli ritirati, Andrey Golubev e Slobodan Zivojinovic sono degli ottimi candidati. Golubev ha un record di 13-6 (68% di vittorie), con un rendimento superiore alle attese del 46%. Rappresenta una buona combinazione di giocatore in grado di battere con regolarità quelli contro cui dovrebbe vincere e ottenere più della sua parte di vittorie a sorpresa di lusso (Stanislas Wawrinka e David Goffin nel 2014, Melzer nel 2013 e Tomas Berdych nel 2011).

Zivojinovic ha raggiunto simili successi con un record di 20-8 (71%), a fronte di un rendimento superiore alle attese del 72%. Ha riportato sei vittorie su dieci in cui la valutazione Elo vedeva la sua probabilità di vittoria non maggiore del 25%. Inoltre, ha perso solo una partita nella quale la probabilità di vittoria era maggiore del 35%.

Quest’analisi approfondisce il merito delle valutazioni Elo nella quantificazione del rendimento di un giocatore, identificando quelli che hanno (e non hanno) mostrato un sostanziale miglioramento rispetto alle attese previste dall’algoritmo basato sui risultati nel circuito maggiore. Uno spunto per ricerche future potrebbe essere quello di identificare gli eroi della Coppa Davis in doppio: in assenza di spareggi ininfluenti a risultato acquisito (visto che il doppio si gioca al sabato, in cui i possibili punteggi sono di 1-1 o 2-0 per una delle due squadre e il passaggio del turno arriva con la conquista di tre punti n.d.t.), la posta in palio è sempre più alta.

Overperforming in Davis Cup

Benoit Paire e i casi in cui la classifica è troppo alta per un Challenger

di Jeff Sackmann // TennisAbstract

Pubblicato il 20 ottobre 2015 – Traduzione di Edoardo Salvati

Con tre eventi del circuito maggiore a disposizione per questa settimana (Mosca, Stoccolma e Vienna a partire dal 19 ottobre 2015, n.d.t.), Benoit Paire ha ritenuto che valesse la pena non giocarne nemmeno uno. Invece, il numero 23 del mondo è la prima testa di serie del Challenger di Brest, cosa che, con ampio margine, fa di lui il giocatore dalla classifica più alta ad essersi iscritto a un Challenger nel 2015.

I giocatori tra i primi 50 possono decidere di partecipare a un Challenger se ricevono un invito dagli organizzatori del torneo, e i giocatori tra i primi 10 possono decidere di non giocarli proprio. Però, dal 1990, un giocatore tra i primi 50 ha partecipato a un Challenger poco più di 500 volte, vale a dire circa venti all’anno (alcuni di questi giocatori non hanno avuto bisogno di una wild card, poiché l’iscrizione è collegata alla classifica posseduta molte settimane prima del torneo, periodo durante il quale le posizioni dei giocatori salgono o scendono).

Molti dei giocatori che ricevono una wild card rientrano in due categorie: o sono quelli che perdono ai primi turni degli Slam o di Masters come Indian Wells e Miami, o sono specialisti della terra battuta alla ricerca di altre occasioni per giocare sulla superficie. La decisione di Paire – in linea con il suo stile – non sembra seguire nessuna di queste frequenti modalità.

La tabella riepiloga i giocatori con la classifica più alta ad aver giocato tornei Challenger dal 1990. Nella colonna dei risultati la vittoria del titolo è indicata con “V”, mentre gli altri sono i turni in cui il giocatore ha perso.

Anno  Evento          Giocatore   Class. Turno       
2003  Braunschweig    Schuettler  8      R16     
1991  Johannesburg    Korda       9      SF      
1994  Barcellona      Berasategui 10     V       
1994  Graz            Berasategui 11     R16     
2008  Sunrise         Gonzalez    12     QF      
2004  Lussemburgo     Johansson   12     V       
2011  Prostejov       Youzhny     13     QF      
2008  Prostejov       Berdych     13     QF      
2003  Praga           Schalken    13     V       
2005  Zagabria        Ljubicic    14     V       
2004  Bratislava      Hrbaty      14     F       
2004  Prostejov       Novak       14     QF      
2003  Prostejov       Novak       14     R32     
2007  Dnepropetrovsk  Canas       15     SF      
2002  Prostejov       Novak       15     F       
1998  Segovia         Berasategui 15     QF      
1997  Braunschweig    Mantilla    15     F       
1997  Zagabria        Berasategui 15     V

(Rainer Schuettler e Petr Korda non erano tra i primi 10 un paio di settimane prima dell’inizio dei rispettivi tornei).

Un rapido sguardo potrebbe far pensare che sia Alberto Berasategui ad aver giocato più Challenger da classificato tra i primi 50. In realtà ci va vicino, è infatti alla pari con Jordi Arrese al secondo posto con 12 partecipazioni. Il giocatore che ha giocato sul circuito Challenger più spesso è stato Dominik Hrbaty, con 17 tornei da classificato tra i primi 50 (tra i giocatori in attività è Andreas Seppi a detenere il record, con nove).

Nonostante tutti quei tentativi, Hrbaty non ha ottenuto particolare successo come classificato di lusso nei Challenger; ne ha vinti infatti solo due e ha raggiunto una finale. I giocatori tra i primi 50 non hanno garanzia di vincere questi tornei naturalmente ma, in generale, hanno fatto meglio di Hrbaty, vincendo il 18% dei possibili tornei. La tabella riepiloga i risultati ottenuti da giocatori tra i primi 50 per turno raggiunto.

Risultato      Frequenza  
Titolo         18.1%  
Perso in F     9.3%  
Perso in SF    11.3%  
Perso in QF    17.1%  
Perso in R16   22.0%  
Perso in R32   22.2%

Paire è un giocatore migliore rispetto alla media classifica di questo campione di giocatori, equivalente al 37esimo posto. Considerando anche la superficie favorevole, il mio algoritmo gli assegna un pronostico molto più ottimistico, leggermente superiore a una possibilità su tre di vincere il torneo. Con un titolo Future, uno del circuito maggiore e un paio di vittorie nei Challenger, ci può stare che Paire aggiunga un’altra stranezza alla sua onnicomprensiva stagione (Paire ha poi perso in finale da Ivan Dodig per 7-5 6-1, ma ha vinto il Challenger di Mouilleron Le Captif giocato il mese successivo, n.d.t.)

Ho verificato anche il rendimento per ogni singolo turno di Challenger dei giocatori con classifica tra i primi 50 rispetto a quello degli altri giocatori, raggruppati in funzione della loro classifica.

Class.     P. R32  P. R16  P. QF  P. SF  P. F  Vitt.  
1 - 50     22%     22%     17%    11%    9%    18%  
51 - 100   31%     23%     17%    12%    7%    10%  
101 - 150  39%     23%     16%    10%    5%    6%  
151 - 200  44%     26%     15%    8%     4%    4%  
201 - 250  49%     26%     13%    6%     3%    2%

I classificati tra i primi 50 fanno decisamente meglio del primo o secondo gruppo di giocatori immediatamente inferiore solo in due turni: il primo turno e la finale. Questo può dipendere dal fatto che i giocatori più forti considerino questi tornei come occasione per allenarsi in dinamiche da partita e si accontentino della fiducia sul proprio stato di forma che arriva da una vittoria al primo turno. E forse poi non vogliono stancarsi troppo o rischiare infortuni. Se invece hanno raggiunto la finale, può essere che abbiano particolare interesse in quel torneo e che quindi giochino per vincerlo.

Come mostrato in tabella, il record di vittorie e sconfitte per ogni turno è un’altra modalità di analisi.

Class.     R32    R16    QF     SF     F  
1 - 50     77.7%  71.5%  69.2%  70.8%  65.9%  
51 - 100   69.0%  66.9%  62.2%  58.5%  57.1%  
101 - 150  60.7%  61.5%  57.2%  54.9%  53.9%  
151 - 200  55.9%  53.5%  50.7%  49.7%  47.8%  
201 - 250  50.9%  48.3%  46.4%  45.8%  46.8%

Sono un po’ sorpreso che le percentuali per ogni gruppo non scendano più drasticamente con il turno. Va detto che per il gruppo con più giocatori (i classificati dalla posizione 100 alla 250) ci sono molte partite tra giocatori classificati nello stesso gruppo, così che le percentuali si assestino sul 50%. Però, le minime differenze in alcuni di questi risultati confermano quanto possa essere equilibrato il campo partecipanti di un Challenger.

Benoit Paire and Overqualified Challenger Contenders

Una statistica emozionale e la sua applicazione al singolare maschile degli US Open 2017

di Stephanie Kovalchik // OnTheT

Pubblicato il 3 novembre 2017 – Traduzione di Edoardo Salvati

Le World Series 2017 della Major League Baseball hanno regalato agli appassionati un finale di campionato entusiasmante, ponendosi come riferimento per valutare il grado di eccitazione che un evento sportivo può trasmettere. In questo articolo, si analizza una statistica emozionale per il tennis e la si utilizza come parametro per stabilire una classifica tra le partite del singolare maschile degli US Open 2017.

Gli Houston Astros hanno vinto il loro primo campionato di baseball battendo i Los Angeles Dodgers in sette partite, in quella che probabilmente rimarrà a lungo una delle serie più incredibili. Ancor prima che la serie finisse, gli esperti di sabermetrica pronosticavano un livello emozionale mai raggiunto in precedenza. Utilizzando un indice chiamato championship Win Probability Added o cWPA, cioè la probabilità aggiunta di vittoria del campionato, due delle prime cinque partite erano già considerate tra le prime 20 più eccitanti di sempre.

La cWPA si basa sulla variazione della probabilità di una squadra di vincere il campionato da un momento di gioco al successivo. Grandi scostamenti nella probabilità di vittoria solitamente indicano un passaggio chiave nella serie, di quelli che possono cambiare l’esito finale, come il punto segnato da Alex Bregman nel decimo parziale di gara 5 che ha mandato Houston a un sola vittoria dal titolo.

Seguendo la serie, la cWPA mi è sembrata un modo interessante per mettere in risalto i momenti più importanti e la generale follia in campo associata alle World Series 2017. Mi ha anche fatto pensare alla possibilità di utilizzare un metodo simile nel tennis.

Variazione della probabilità cumulata

Nel tennis, l’analogo della cWPA è dato dalla cumulative probability change o CPC, cioè la variazione della probabilità cumulata. Per ogni punto di una partita, la CPC analizza la variazione della probabilità di vittoria del giocatore favorito, sommandone i valori assoluti per ottenere la grandezza complessiva degli “alti e bassi” di una partita.

Da un punto di vista matematico, se una partita è composta da n punti giocati e la probabilità di vittoria del giocatore favorito è Wi, dove i è l’iesimo punto, la CPC è data dalla seguente formula:

In una partita in cui è il giocatore più forte ad andare avanti nel punteggio senza essere mai rimontato, variazioni nella probabilità di vittoria saranno contenute e relativamente pochi i punti giocati, con una bassa CPC complessiva. Se però aumenta il numero dei punti, per situazioni di tiebreak o per game prolungati ai vantaggi, anche la CPC sarà più alta.

Attraverso la CPC possiamo quindi avere un’idea del valore emozionale di una partita. A parità di altre condizioni, è più probabile che una partita con una CPC alta catturi l’attenzione degli spettatori più di una partita con una CPC bassa.

Anche Jeff Sackmann di TennisAbstract ha introdotto una statistica per la misurazione dell’entusiasmo di una partita, l’indice emozionale, che è simile alla CPC ma che viene determinata dalla probabilità media di vittoria, soffermandosi cioè sull’equilibrio complessivo della partita.

Una classifica emozionale degli US Open 2017

Per avere un esempio concreto, vediamo come si comporta la CPC con le partite degli US Open 2017. Per la probabilità di vittoria punto per punto ho utilizzato una metodologia predittiva che si modifica durante la partita, partendo dalla valutazione Elo di ciascun giocatore prima della partita e aggiornando il suo predominio atteso in funzione del rendimento ottenuto al servizio fino al punto in questione. Questo significa che vengono considerate sia la qualità del giocatore che l’andamento del punteggio, così che due partite che raggiungono il medesimo punteggio non necessariamente possano restituire la stessa previsione di vittoria.

Il grafico dell’immagine 1 riporta la CPC (l’indice emozionale) sull’asse delle ordinate rispetto ai punti totali giocati indicati sull’asse delle ascisse (nella versione originale, è possibile visualizzare i singoli valori puntando il mouse sul grafico, n.d.t.). Si evidenzia chiaramente una correlazione positiva, con partite più lunghe che tendono ad avere una CPC più alta. È ragionevole che sia così visto che una partita lunga necessariamente è più equilibrata, come nel caso dell’epico primo turno tra Denis Istomin e Albert Ramos.

IMMAGINE 1 – Indice emozionale per le partite di singolare maschile degli US Open 2017

È interessante notare come possa esserci una variazione anche significativa tra le CPC di partite con un numero simile di punti giocati. Prendiamo ad esempio due delle partite di Leonardo Mayer. La vittoria in quattro set al secondo turno contro Yuichi Sugita ha richiesto 258 punti con una CPC di 9.7. Nel turno successivo, la partita contro Rafael Nadal è durata sempre quattro set con 260 punti e una CPC di 5.5.

Come mai questa differenza? Le due partite sono iniziate in modo analogo, con la vittoria del primo set al tiebreak da parte del giocatore che ha poi perso la partita. La CPC della partita contro Nadal è stata quasi la metà di quella contro Sugita perché Nadal ha dominato nei tre rimanenti set e perché aveva un vantaggio enorme prima dell’inizio della partita, vale a dire che la sua probabilità di vittoria è rimasta molto alta anche dopo aver perso il primo set. La partita contro Sugita invece ha lasciato l’esito finale più a lungo in sospeso.

Considerare anche la bravura del giocatore

Non possiamo definire la CPC una misura emozionale senza aver valutato anche la bravura dei giocatori. Ipotizziamo di avere due partite con identico andamento punto per punto ma con una coppia di giocatori medi da una parte e Roger Federer e Nadal dall’altra. La maggior parte degli appassionati certamente ritiene la seconda più emozionante, aspetto che suggerisce che la bravura complessiva dei giocatori incide sull’interpretazione della CPC.

Nel grafico dell’immagine 2, ho provato a includere la bravura prendendo la somma della valutazione Elo specifica per il cemento di ciascun giocatore all’inizio del torneo. Mettendo a confronto la CPC con questa misura della bravura, la zona del grafico più interessante diventa il quadrante superiore di destra. È qui infatti che si posizionano le partite con una CPC e un livello di talento più alti della media.

IMMAGINE 2 – Indice emozionale rispetto alla bravura dei giocatori per le partite di singolare maschile degli US Open 2017

È curioso come due delle partite che più hanno fatto discutere in cui ha giocato Juan Martin Del Potro siano rappresentate in quest’area, la maratona in cinque set contro Dominic Thiem, che ha la CPC più alta tra le due, e la vittoria in quattro set contro Federer. È però la partita da 355 punti tra Jack Sock e Jordan Thompson a ottenere la CPC maggiore del quadrante a più alta bravura.

Non sono solo gli statistici del baseball a divertirsi con la probabilità di vittoria, anche il tennis può usare indici come la CPC per contribuire con una nuova visuale al dibattito sulle partite più emozionanti.

Il codice e i dati per quest’analisi sono disponibili qui.

A Stat for Excitement and What It Reveals About the Best Men’s Matches at the 2017 US Open

La capacità di Novak Djokovic di rendere la seconda di servizio inefficace

di Jeff Sackmann // TennisAbstract

Pubblicato l’11 novembre 2013 – Traduzione di Edoardo Salvati

Quando c’è Novak Djokovic dall’altra parte del campo, è meglio mettere dentro più prime di servizio.

Per il 2013, Djokovic è uno dei due giocatori a vincere più del 55% dei punti alla risposta sulla seconda di servizio (l’altro è David Ferrer). Se si considera che vince anche più del 35% dei punti alla risposta sulla prima di servizio, diventa difficile pensare che il giocatore al servizio abbia un effettivo vantaggio. Anzi, quando Djokovic raggiunge quel livello, se il suo avversario inciampa in un momento negativo e serve solo un quarto delle prime di servizio, Djokovic ha una probabilità superiore al 50% di fare il break.

Spesso i telecronisti definiscono la risposta di Djokovic una vera e propria arma, e non a torto. Solo sei giocatori (tra cui lo stesso Djokovic e, inevitabilmente, John Isner) hanno vinto quest’anno lo stesso numero di punti sulla seconda di servizio di quanti Djokovic ne abbia vinti rispondendo alla seconda di servizio.

L’aspetto più impressionante del gioco in risposta di Djokovic è la velocità con cui rende inefficace la seconda di servizio, spesso usando tattiche che, se adottate da giocatori dotati di talento inferiore, sarebbero più appropriate per i punti al servizio. Rispetto agli altri giocatori alla risposta, Djokovic ha più probabilità di vincere uno scambio breve che uno lungo. Mentre ad altri giocatori servono alcuni colpi per controbilanciare il vantaggio assegnato dal servizio, Djokovic raggiunge la massima efficacia nelle fasi iniziali dello scambio sulla risposta.

L’immagine 1 mostra il confronto tra la percentuale di punti vinti da Djokovic in risposta alla seconda di servizio – in funzione della lunghezza dello scambio – di quattro partite di cui ho raccolto dati punto per punto (la semifinale contro Stanislas Wawrinka e la finale contro Rafael Nadal agli US Open 2013; la semifinale contro Wawrinka e il Round Robin contro Juan Martin Del Potro alle Finali di stagione 2013) e la stessa percentuale di altri giocatori tra i primi 10 (a esclusione di Nadal) in 19 partite con dati punto per punto dagli US Open 2013 e dalle Finali di stagione 2013.

IMMAGINE 1 – Percentuale di punti vinti alla risposta da Djokovic e da altri giocatori tra i primi 10 in un campione di partite selezionato

Quando la risposta è in campo, Djokovic vince quasi il 53% dei punti, mente il resto dei giocatori arriva a meno del 44% (si tratta di partite tra i primi 10, quindi le medie sono molto inferiori rispetto ai valori stagionali, che beneficiano di partite contro avversari più deboli). La differenza rimane quasi la stessa anche escludendo gli scambi da due e tre colpi.

Limitando l’analisi agli scambi che arrivano a sei colpi, Djokovic ha comunque un margine sostanziale, circa il 48% contro il 42%. Negli scambi più lunghi di sette colpi, praticamente non c’è differenza.

La risposta di Djokovic è così efficace che se un avversario sbaglia la prima di servizio è come se il punto fosse diventato sul servizio di Djokovic. Gli avversari sono costretti a dover giocare in salita i propri punti di servizio!

Così è stato in particolare nella finale degli US Open 2013 tra Djokovic e Nadal, il quale ha vinto a malapena la metà dei punti sulla seconda di servizio quando Djokovic ha risposto in campo. Nel momento in cui però lo scambio è arrivato almeno a cinque colpi (quindi anche sei o sette, etc) Nadal ha avuto la meglio, vincendo il 60% dei punti. Una volta raggiunti i cinque colpi, il vantaggio di Nadal ha continuato ad aumentare.

Certo, è stato Nadal a vincere quella partita. Non è molto utile trasformare punti alla risposta in punti al servizio avendo di fronte un avversario la cui risposta al servizio è così efficace. Per vincere oggi la finale dell’ultimo torneo dell’anno, Djokovic ha bisogno di fare altro dell’attaccare la seconda di servizio di Nadal. O riesce a farlo con più efficacia di quanto sia riuscito a New York, o deve trovarsi nella posizione di vincere scambi più lunghi alla risposta una volta che l’effetto generato dalla sua bravura alla risposta è svanito (Djokovic ha vinto le Finali di stagione 2013 per 6-3 6-4, con il 50% dei punti vinti alla risposta sulla seconda di Nadal e il 70% dei punti vinti sulla propria seconda di servizio. E ha impedito che gli scambi sulla seconda di Nadal diventassero lunghi, senza nessuno scambio ad aver superato i dieci colpi, vincendo molti più di quelli di media lunghezza rispetto a quanto fatto agli US Open, n.d.t.).

Novak Djokovic and Neutralizing the Second Serve

I 22 miti del tennis di Klaassen & Magnus – Mito 20 (ancora sul servire per primi)

di Stephanie Kovalchik // OnTheT

Pubblicato il 23 luglio 2016 – Traduzione di Edoardo Salvati

Un’analisi del Mito 19.

Ci avviciniamo alla conclusione della rivisitazione dei 22 miti di Klaassen e Magnus, e le idee si fanno meno originali. Invece di soffermarmi su quanto visto sinora, cercherò di rendere il discorso interessante adottando per le ultime tematiche una nuova ottica.

Quest’articolo ritorna sull’argomento inizialmente sviluppato nel Mito 2, cioè quello del vantaggio derivante dal servire per primi in una partita, non tanto nel primo game in assoluto, ma nel primo game di qualsiasi set. Uno dei punti chiave emersi dallo studio dei due autori evidenziava come l’effetto del servire per primi subisse variazioni in tutti i set tranne il primo, poiché servire per primi nei set successivi è altamente correlato con l’aver perso il set precedente.   

Cosa si può dire relativamente al primo set, in cui l’opportunità di servire per primi è decisa solamente della fortuna? La probabilità di vittoria del game per i giocatori al servizio aumenta per il fatto di servire per primi?

Mito 20: “Il vincitore del sorteggio dovrebbe scegliere di servire”

In virtù del lancio della moneta che precede l’inizio della partita, servire per primi è l’esperimento più regolato dal caso che ci possa essere nel tennis. Tuttavia, anche il caso può portare a risultati curiosi e potrebbe comunque accadere che la bravura dei giocatori che servono per primi sia diversa da quella dei giocatori che servono per secondi, specialmente in un campione ridotto di partite. Per tenerne conto, Klaassen e Magnus utilizzano la differenza di classifica tra giocatori per verificare se chi serve per primo nel primo game ha una prestazione migliore del giocatore che serve per secondo ma che è comunque di un livello qualitativo simile rispetto al suo avversario. 

Sulla base di un campione di partite derivante da molteplici edizioni di Wimbledon, i due autori hanno trovato che la percentuale di punti vinti al servizio è tendenzialmente di 3 punti percentuali più alta nel primo game rispetto a tutti gli altri game al servizio, sia per gli uomini che per le donne, un risultato che dovrebbe dare credito all’idea che servire per primi nel primo set sia effettivamente un vantaggio.

Nella rivisitazione iniziale del Mito 2, ho mostrato che se un effetto di quel tipo nel primo game esiste per davvero, è probabilmente da attribuire alle palline nuove, sebbene le palline del primo game non siano proprio nuove visto che sono state usate nel riscaldamento. È il motivo per il quale le palline vengono cambiate nell’ottavo game e successivamente ogni nove game. Le palline del primo game quindi sono state sottoposte a circa due game di utilizzo, da cui ci si dovrebbe attendere un vantaggio minimo.

In realtà, un’analisi approfondita nella rivisitazione del Mito 18 ha verificato che la diminuzione dell’effetto delle palline nuove è collegata anche all’avanzamento del punto (non solo quindi all’usura delle palline in termini di game giocati, ma anche di numero di colpi giocati) e che lo svantaggio legato all’usura dipende dal singolo giocatore.

Una rivisitazione del vantaggio di servire per primi

Considerando che molte situazioni di possibile vantaggio o svantaggio nel tennis variano in funzione dello specifico giocatore, ho pensato che fosse interessante capire se così è anche per gli effetti associati al primo game. Per un’analisi di questo tipo, ho considerato i dati punto per punto delle partite maschili e femminili nel periodo tra il 2014 e il 2015 e confrontato la prestazione del giocatore al servizio nel primo game con tutti gli altri suoi game al servizio in quella partita. Il ragionamento è che i game al servizio di una partita dovrebbero rappresentare una buona approssimazione dell’abilità al servizio di quel giocatore in quel giorno, tenendo conto del suo avversario.

Tuttavia, confronti con la media (tolto il primo game) e con i punti vinti al servizio durante il primo game sono delicati perché il primo game è un campione di punti ridotto. La media di punti giocati nel primo game è 6 per gli uomini e 7 per le donne. Come possiamo stabilire che un X numero di punti vinti al servizio rispetto a un n numero di punti è stato insolitamente grande o insolitamente piccolo? 

Si può fare affidamento sulla probabilità binomiale esatta. Chiamiamo p la probabilità di vincere un punto da parte del giocatore al servizio. Stimiamo la probabilità di vincere almeno un X numero di punti nel primo game con la seguente formula:

P(Punti Vinti ≥ X) = 

Con questa formula ho calcolato l’elemento sorpresa di ogni prestazione ottenuta sia dai giocatori al servizio per primi che dai giocatori al servizio per secondi. In entrambi i casi, p era la media dei punti vinti dal giocatore al servizio in tutti gli altri game al servizio durante la specifica partita.

L’immagine 1 mostra i risultati per i giocatori al servizio. L’asse delle ordinate riporta la p del giocatore per la partita nel caso in cui abbia servito per primo (in blu, a sinistra) o per secondo (in rosso, a destra. Nella versione originale, è possibile visualizzare i nomi di ciascun giocatore puntando il mouse sul grafico, n.d.t.). L’asse delle ascisse riporta la probabilità binomiale che i punti vinti nel primo game siano lo stesso numero o un numero maggiore di quelli che il giocatore ha effettivamente vinto. Se al lancio della moneta scegliere di servire ha un vantaggio, dovremmo aspettarci un numero più alto di primi game con bassa probabilità.

Definendo una probabilità del 5% come sorprendente, evidenziata nel grafico con la linea rosso scuro, non ci sono state prestazioni superiore alle attese tra i giocatori che hanno servito per primi, mentre c’è stato lo 0.4% di prestazioni superiori alle attese tra i giocatori che hanno servito per secondi nel loro primo game di servizio. Definendo una probabilità del 20% come sorprendente (evidenziata con la linea rosso chiaro), si è trovato il 9% di prestazioni superiori alle attese tra i primi al servizio e il 13% tra i secondi al servizio nel loro primo game al servizio. È interessante notare che Leonardo Mayer ha avuto tre prestazioni superiori in un campione di partite ridotto. 

IMMAGINE 1 – L’effetto di servire per primi nelle partite del circuito maschile nel periodo 2014-2015

In campo femminile, una prestazione nel primo game superiore alle attese è stata più comune, seppur con una frequenza sempre molto limitata. Nel 2% dei casi tra le prime giocatrici al servizio e nel 3% dei casi tra le seconde giocatrici al servizio si è assistito a una prestazione sorprendentemente solida (5% massimo di probabilità) nel primo game al servizio rispetto al resto della partita. Utilizzando uno standard del 20%, ci sono state l’11% delle prime giocatrici al servizio e il 14% delle seconde con prestazioni sorprendentemente buone. Molte sono state le giocatrici con diverse partite in cui hanno fatto meglio delle attese nel primo game, tra cui Andrea Petkovic, Heather Watson e Madison Keys.

IMMAGINE 2 – L’effetto di servire per primi nelle partite del circuito femminile nel periodo 2014-2015

Riepilogo

Anche con il supporto della casualità dettata dal lancio della moneta, resta comunque difficile valutare gli effetti del primo game, per via dell’usura delle palline e del limitato campione a disposizione. Il test binomiale tra game della stessa partita è uno degli strumenti per identificare quanto spesso le prestazioni nel primo game non siano allineate a quelle del resto della partita, che forse è il modo migliore per testare la capacità di uno specifico giocatore in un determinata partita rispetto alla bravura dell’avversario. Con questa metodologia, si è trovato che in circa il 15% delle volte le prestazioni nel primo game sono poi state mantenute nel resto della partita, e non c’è traccia del fatto che rendimenti superiori alle attese siano più probabili per chi ha servito per primo rispetto a chi ha iniziato alla risposta. 

I risultati lasciano spazio alla possibilità che alcuni giocatori beneficino dell’“effetto di iniziare per primi”, che può far pensare all’esistenza di un sottoinsieme di giocatori che dovrebbero approfittare del servire per primi quando vincono il sorteggio.

Klaassen & Magnus’s 22 Myths of Tennis— Myth 20

Un po’ di ironia con il rapporto nei punti al servizio

di Jeff Sackmann // TennisAbstract

Pubblicato il 14 settembre 2017 – Traduzione di Edoardo Salvati

Nella vittoria a senso unico della finale degli US Open 2017 contro Kevin Anderson, Rafael Nadal non ha dovuto affrontare una sola palla break. Anderson non è nemmeno riuscito ad arrivare a molte situazioni di parità sul servizio di Nadal il quale, invece, ha costantemente messo pressione al suo avversario nei game alla risposta.

Questo ha determinato un rapporto inusuale: Anderson ha dovuto giocare molti più punti al servizio di quanto abbia fatto Nadal, nonostante entrambi abbiano giocato al servizio lo stesso numero di game. Nadal ha servito per 72 volte contro le 108 di Anderson, con un rapporto di 2/3 o, arrotondando, 0.67. Nel mio ultimo podcast, ho ipotizzato che questo rapporto nei punti al servizio è un comodo strumento per individuare il vincitore: se un giocatore supera i suoi game al servizio molto più velocemente dell’altro, probabilmente è perché, a differenza del suo avversario, sta tenendo facilmente il servizio.

Non è la migliore ipotesi che abbia mai formulato. È vera, ma non di un margine dirompente. In media, in una partita del circuito maschile il rapporto tra i punti giocati al servizio dal vincitore e i punti giocati al servizio dallo sconfitto è 0.96, che vorrebbe dire che Nadal ha servito 88 volte contro le 92 di Anderson. Il vincitore serve meno punti al servizio nel 57% delle partite. Con questo, potremmo aver trovato la prossima Chiave del Match di IBM!

Invece di scoprire una modalità di rappresentazione del successo effettivamente utile nella più basilare delle statistiche relative a una partita, siamo incappati nell’ennesimo risultato da aggiungere all’elenco delle imprese estreme di Nadal. Delle circa 13.000 partite completate nei tornei Slam dal 1991, solo 147 vincitori – a malapena l’1% – hanno avuto un rapporto nei punti al servizio inferiore a 0.67. Delle 106 finali di cui sono disponibili dati, il valore di Nadal nella finale degli US Open 2017 è il più basso in assoluto. Ha battuto di poco lo 0.68 ottenuto da Federer nella finale degli Australian Open 2017 contro Fernando Gonzalez.

Si scopre inoltre che il rapporto nei punti al servizio è più da imputare al caso che altro, per Nadal tanto quanto complessivamente per gli altri giocatori. In otto delle sue sedici vittorie negli Slam il rapporto è stato inferiore a 1.0, uguale a 1.0 in una e superiore a 1.0 nelle rimanenti sette. La sua media è un anonimo 0.98.

Ci siamo quindi: in una sola settimana, abbiamo osservato una stranezza, elaborato una statistica che la catturasse, e concluso che non comunica granché. E poi si parla di statistiche nel tennis!

Fun With Service Point Ratios

Il tabellone degli US Open 2016 demolirebbe quello degli US Open 2017

di Stephanie Kovalchik // OnTheT

Pubblicato il 2 settembre 2017 – Traduzione di Edoardo Salvati

Si è dibattuto molto della mancanza di qualità nel tabellone del singolare maschile degli US Open 2017. Quale occasione migliore quindi per verificare la validità di questo assunto se non quella di far scontrare direttamente il tabellone dell’edizione 2017 con quello dell’edizione 2016?

All’inizio del torneo, il sorteggio del tabellone ha sollevato un coro di mugugni. Non solo tre dei primi 10 del mondo si erano ritirati prima ancora del sorteggio, ma Rafael Nadal e Roger Federer sono finiti entrambi nella parte alta. La situazione è peggiorata quando Andy Murray si è dovuto ritirare – a sorteggio avvenuto – per un problema all’anca, così da avere solo sei dei primi 10, il minimo storico nell’era Open per l’ultimo Slam della stagione.

Tornando indietro di un anno ci si rende conto di quanto il circuito sia cambiato. All’inizio degli US Open 2016, Novak Djokovic era il numero 1 con un’intimidatoria valutazione Elo su tutte le superfici di 2946, appena sotto il suo massimo in carriera. Nadal era la testa di serie numero 4 con un Elo di 2231. Nonostante l’assenza di Federer non passasse inosservata, la qualità del giocatore con la testa di serie più alta per ogni quarto del tabellone ha dato vita a sette turni molto combattuti.

Nel 2017, l’assenza di tre dei primi 5 del mondo ha conferito a Nadal la testa di serie numero 1 con un Elo di 2257, marginalmente superiore alla valutazione che nel 2016 gli aveva garantito la testa di serie numero 4. A seguito del rimescolamento dovuto al ritiro di Murray, Marin Cilic ha preso la testa di serie più alta nel quarto più debole e si è inserito nel tabellone con una valutazione Elo di 2093. Sono solo 50 punti Elo in più della posizione di Cilic nel 2016, quando era la testa di serie numero 7.

Quindi…si, è cambiato molto in un anno.

La differenza di forma tra teste di serie però è solo uno dei motivi scatenanti la discussione intorno al campo partecipanti degli US Open 2017. Anche il disequilibrio del tabellone è stato fonte di disappunto, o a volte addirittura collera. Di fronte alla presenza di un solo giocatore in possesso di un titolo Slam nella parte bassa, alcuni commentatori di tennis hanno affermato che qualsiasi dilettante con spirito combattivo avrebbe potuto raggiungere la semifinale. Certamente non il tipo di sarcasmo da invogliare lo spettatore occasionale a rimanere incollato alla televisione.

Va sottolineato però che la maggior parte delle valutazioni sono basate su opinioni personali o influenzate dall’eventuale presenza di giocatori favoriti, il che induce a chiedersi in che modo si possa trovare una misura oggettiva della qualità (o inadeguatezza) del tabellone degli US Open 2017.

Un metodo che ritengo essere obiettivo nel paragonare il tabellone dell’edizione in corso a quelli del recente passato è di creare uno scontro diretto tra i giocatori del 2017 e i giocatori degli US Open 2016. Provate a immaginare di avere ogni quarto del tabellone 2017 in grado di giocare contro il corrispondente quarto del tabellone 2016 in un torneo a 64 giocatori. Esiste un modo migliore per definire il livello di bravura del momento rispetto a quello di un anno fa? Non credo.

È evidente che non possiamo spostare indietro le lancette dell’orologio e far giocare un torneo di quel tipo nella realtà (servirebbe dissociarsi dai vincoli della logica come è necessario fare per seguire, ad esempio, la serie tv Il Trono di Spade). Possiamo però affidarci a ben collaudati metodi predittivi per simulare una sfida all’ultimo giocatore tra il 2017 e il 2016.

Un breve spiegazione del procedimento utilizzato per generare ciascun tabellone della sfida. Per prima cosa, ho associato le prime quattro teste di serie del 2017 alle corrispondenti teste di serie del 2016 sulla base delle valutazioni Elo precedenti all’inizio del torneo. Ad esempio, il quarto di Federer nel 2017 si è scontrato con quello di Djokovic nel 2016 perché sono i due giocatori ad aver avuto la valutazione Elo più alta nell’anno di riferimento.

Una volta che ogni quarto del 2017 e del 2016 è stato associato, ho messo insieme i 64 giocatori e li ho ordinati secondo le regole previste per un normale torneo, utilizzando sempre le valutazioni Elo per determinare le teste di serie. Poi ho simulato l’esito di ciascun turno in funzione della percentuale di vittoria attesa determinata dalla valutazione Elo dei giocatori protagonisti dello scontro diretto. Ho ripetuto i passaggi per 10.000 volte e verificato quanto spesso ogni giocatore è diventato campione del torneo.

Visto che siamo interessati a valutare le differenze di qualità del tabellone di ogni torneo al suo inizio, ho ignorato i risultati della prima settimana degli US Open 2017 e inserito i giocatori che hanno raggiunto la seconda settimana come se iniziassero il torneo in quel momento.

Il quarto di finale di Nadal

In un torneo con Nadal 2017 e Murray 2016, Murray sarebbe comodamente in cima all’elenco dei vincitori più probabili, come mostrato nell’immagine 1. Anzi, Murray 2016 avrebbe più del doppio delle probabilità di vincere il titolo rispetto a Nadal 2017. Nishikori 2016 avrebbe la stessa probabilità statistica di vincere il titolo di Nadal 2017.

IMMAGINE 1 – Il quarto di finale di Nadal 2017 contro il quarto di finale di Murray 2016

Sebbene il livello complessivo del campo partecipanti degli US Open 2017 non si sia avvicinato nemmeno al livello di Murray nel 2016, troviamo però cinque giocatori nel quarto di finale del 2017 tra i dieci più forti delle simulazioni. Si può fare leva su questo per concludere che il quarto di finale del 2017 era di qualità.

Il quarto di finale di Federer

Per quanto riguarda questa sezione di tabellone, se Djokovic 2016 avesse giocato al suo livello atteso avrebbe demolito il campo partecipanti del 2017. Una probabilità maggiore del 60% di vincere un torneo che comprende giocatori indicati da molti come possibili vincitori degli US Open 2017 sottolinea la vertiginosa altitudine di forma da cui purtroppo Djokovic si è lanciato in caduta libera in così poco tempo.

IMMAGINE 2 – Il quarto di finale di Federer 2017 contro il quarto di finale di Djokovic 2016

Per gli altri giocatori che non siano Djokovic e Federer, la probabilità si è ridotta considerevolmente assestandosi su valori analoghi, a indicare che lo stato di forma delle non teste di serie di questo quarto era abbastanza simile tra il 2016 e il 2017.

Il quarto di finale di Zverev

Nel confronto tra il quarto di finale di Alexander Zverev 2017 e quello di Nadal 2016, la prima testa di serie del 2016 è emersa come il giocatore più forte. A differenza degli altri quarti del 2017, questo è il primo in cui si è osservata una netta separazione di bravura tra il resto del campo partecipanti 2016 e 2017. Il terzo quarto infatti non solo ha determinato un giocatore del 2016 come il più probabile vincitore di uno torneo tra 2016 e 2017, ma quattro dei cinque vincitori più probabili sono arrivati dall’edizione 2016.

IMMAGINE 3 – Il quarto di finale di Zverev 2017 contro il quarto di finale di Nadal 2016

Il quarto di finale di Cilic

Il predominio del tabellone 2016 è stato ancora più pronunciato nella sezione di Cilic. I primi tre vincitori di un ipotetico scontro quarto contro quarto sono stati tutti giocatori del 2016, con Cilic, la prima testa di serie del quarto, in possesso solamente della quarta probabilità di vincere il torneo, a malapena migliore di quella di Nick Kyrgios 2016.

IMMAGINE 4 – Il quarto di finale di Cilic 2017 contro il quarto di finale di Wawrinka 2016

Questo esperimento ha confermato che la qualità del tabellone di singolare maschile 2017 è offuscata da quella del tabellone del 2016. Fornisce inoltre credito alle lamentele relative allo squilibrio della metà bassa del tabellone 2017.

Di fronte a numeri come questi, si fa fatica a non sentirsi delusi. Se si considera inoltre che molti dei giocatori del 2017 statisticamente più forti hanno già perso (Cilic, Zverev, etc) o sembrano sul punto di uscire (Federer, che perderà poi nei quarti di finale da Juan Martin Del Potro, n.d.t.) si è già pronti a considerare il tabellone del singolare maschile degli US Open 2017 senza speranza. Si tratta però del tipo di confusione che crea le giuste condizioni affinché un perfetto sconosciuto venga alla ribalta come ha fatto Boris Becker a Wimbledon 1985, Goran Ivanisevic a Wimbledon 2001 o Mats Wilander al Roland Garros 1982.

La possibilità di assistere a un’altra cavalcata di un giocatore sfavorito che emerga trionfante nella seconda settimana è un motivo più che valido per continuare a seguire gli US Open 2017.

Il codice e i dati per quest’analisi sono disponibili qui.

The 2016 US Open Men Would Smash 2017

Qual era la probabilità di avere quattro giocatrici americane nelle semifinali degli US Open 2017?

di Stephanie Kovalchik // OnTheT

Pubblicato l’8 settembre 2017 – Traduzione di Edoardo Salvati

Per la prima volta dopo 36 anni, le semifinali del singolare femminile degli US Open 2017 saranno un affare solo americano. Qual era la probabilità di un esito di portata storica come questo?

Se in molti si sono lamentati della monotonia degli incontri di singolare maschile, il tabellone femminile non ha invece disatteso. Tra i momenti più eccitanti, almeno per i tifosi americani, c’è senza dubbio la trasformazione da parte di Madison Keys del secondo match point nell’ultimo dei quarti di finale femminili, che ha assicurato appunto due semifinali tra giocatrici solo degli Stati Uniti, cioè – oltre a Keys – Venus Williams, Sloane Stephens e CoCo Vandeweghe.

Per la prima volta dal 1981 ci saranno solo bandiere americane accanto al nome delle semifinaliste. E con Williams l’unica ad aver già vinto un titolo dello Slam, c’è una buona probabilità di vedere un nuovo nome nell’elenco delle campionesse degli US Open.

Raggiungere questo traguardo a 36 anni di distanza non è frutto del caso. Per poter battere le avversarie di cinque turni di partite in un tabellone a eliminazione diretta con 128 partecipanti, è richiesta la presenza di forti giocatrici americane in ciascun quarto. Sembra quindi che trovare talento americano a ogni livello sia stata la condizione necessaria.

Ventitré giocatrici americane erano iscritte al tabellone principale degli US Open 2017. Nel tennis, uno sport di provenienza sempre più globale, si tratta di una fetta significativa per una singola nazione in uno Slam, anche se questo vale solo a partire dal nuovo millennio.

Infatti, come mostra l’immagine 1, era abbastanza frequente negli anni ’80 avere almeno il 50% del campo partecipanti rappresentato da giocatrici degli Stati Uniti. Da quel momento però la tendenza è precipitata. In molti anni dell’ultima decade, il numero di giocatrici americane nel singolare femminile non è mai stato superiore a 20.

IMMAGINE 1 – Andamento della presenza di giocatrici americane agli US Open

Rispetto al 1981, quando la composizione del tabellone era pesantemente sbilanciata a favore degli Stati Uniti, avere oggi semifinali di sole giocatrici americane è un risultato notevole. Le 23 giocatrici sono poca cosa se paragonate alle 78 del 1981, ma è importante sottolineare che si è di fronte a un valore massimo nella tendenza di crescita delle americane agli US Open dal 2010. È un’altra indicazione della profondità del movimento femminile americano.

Il tabellone femminile degli US Open è di certo speciale per molti motivi. Ma lo è anche da un punto di vista statistico? Quanto sono stati fortunati i tifosi locali a ricevere due semifinali tra giocatrici americane?

Possiamo farci un’idea della probabilità di accadimento di un anno record come gli US Open 2017 simulando gli esiti più probabili del tabellone femminile utilizzando le valutazioni Elo delle giocatrici. Su 100.000 simulazioni, due semifinali tutte americane si sono verificate solo ventisette volte, in altre parole con una probabilità su quattromila. E in quattordici delle ventisette volte, quindi poco più del 50%, le semifinaliste sono state esattamente le quattro giocatrici protagoniste.

I tifosi americani di tennis che si godranno lo spettacolo del fine settimana conclusivo agli US Open hanno due ragioni in più per sentirsi fortunati.

Il codice e i dati per quest’analisi sono disponibili qui.

What Were the Odds of an All-American Women’s SF at the US Open?

Quantificare i tabelloni “passeggiata”, o la volta in cui Nadal finalmente ha avuto fortuna

di Jeff Sackmann // TennisAbstract

Pubblicato l’8 settembre 2017 – Traduzione di Edoardo Salvati

Aggiornamento: rispetto alla prima versione di questo articolo, ho modificato la definizione di “difficoltà di percorso” in “facilità di percorso”, per meglio riflettere il senso della statistica che ho introdotto.

Rafael Nadal e Kevin Anderson hanno raggiunto la finale degli US Open 2017, quindi siamo in grado di determinare con precisione il valore della facilità di percorso per entrambi, a seconda di chi vinca la finale. Per Nadal il numero rimane identico a 51.4% e, dovesse vincere, la sua media in carriera per i 16 Slam aumenterebbe a circa il 15%. La facilità di percorso fino al titolo per Anderson è “solo” di 41.3% (rispetto al 47.1% calcolato non sapendo i nomi dei finalisti), che varrebbe il nono posto nel terzultimo elenco dell’articolo e al secondo posto, anche se di poco, tra i percorsi più facili degli ultimi 30 US Open.

Molti commenti sono stati espressi sulla debolezza di alcune sezioni del tabellone del singolare maschile degli US Open 2017, che sono sembrate tenute insieme con lo scotch. Diversi tra i giocatori più forti non hanno partecipato per infortunio e molti altri sono usciti ai primi turni. Pablo Carreno Busta ha raggiunto i quarti di finale battendo quattro qualificati ed è plausibile che Nadal possa vincere il torneo senza aver sconfitto un solo giocatore dei primi 20 del mondo.

Nulla di questo però dipende dai giocatori stessi, il cui compito è affrontare solo chi si trova dall’altra parte della rete. Non sapremo mai come si sarebbero comportati con un gruppo più agguerrito di avversari. La debolezza del tabellone però potrebbe influenzare il nostro ricordo del torneo. Se lasciamo che sia la qualità del campo partecipanti a rimanere impressa nella mente, dovremmo allora almeno tentare di mettere a confronto i giocatori del torneo 2017 con quelli di passate edizioni degli Slam.

Come misurare i percorsi di un tabellone

Ci sono diversi modi per quantificare la qualità di un tabellone. Visto che siamo interessati allo specifico insieme di avversari affrontati dai giocatori rimasti nel torneo, abbiamo bisogno di una statistica che concentri l’attenzione su di loro. Non è rilevante ad esempio che Nick Kyrgios fosse in tabellone, dato che nessuno dei semifinalisti ha dovuto giocarci contro. Invece della difficoltà del tabellone quindi, ci interessa quella che chiamerò “facilità di percorso”. È un concetto piuttosto immediato: quanto è difficile battere lo specifico insieme di avversari che Nadal (per fare un nome) ha dovuto affrontare?

Per arrivare a un numero, ci servono alcuni fattori: le valutazioni Elo ponderate per superficie di ciascuno degli avversari del giocatore considerato, insieme a una sorta di “Elo di riferimento” per un semifinalista medio di Slam (o finalista, o vincitore). Per stabilire la facilità di percorso di Nadal fino a questo momento, non vogliamo utilizzare la valutazione Elo di Nadal, perché se così facessimo, lo stesso identico percorso sembrerebbe più semplice o più difficile in funzione della qualità del giocatore che ha dovuto affrontarlo.

(L’esatto valore dell’“Elo di riferimento” non è così importante, ma per chi fosse interessato ai numeri, ho trovato la valutazione Elo media per ogni semifinalista, finalista e vincitore di tutti gli Slam dal 1988 su ciascuna delle tre superfici. Sul cemento, quei numeri sono rispettivamente 2145, 2198 e 2233. Per misurare la facilità di percorso fino alla semifinale, ho utilizzato il primo di quei numeri, per la facilità di percorso fino alla vittoria, ho utilizzato l’ultimo.)

Per misurare la facilità di percorso dobbiamo rispondere a questa domanda: qual è la probabilità che (ad esempio) il semifinalista medio di Slam batta questo particolare insieme di giocatori? Nel caso di Nadal, deve ancora affrontare un giocatore con una valutazione Elo ponderata per il cemento superiore a 1900, e il tipico semifinalista con valutazione 2145 batterebbe i giocatori affrontati da Nadal il 71.5% delle volte. Si tratta di un percorso leggermente più facile di quello che Anderson ha dovuto fare per arrivare in semifinale, ma leggermente più difficile di quello di Carreno Busta. Juan Martin Del Potro invece si trova in un pianeta tutto suo. La tabella riepiloga i numeri relativi alla facilità di percorso dei quattro semifinalisti, mostrando quanto sia stato difficile (o facile) arrivare in semifinale, quanto lo sia per la finale e poi per il titolo.

Semifinalista   Percorso: SF      F       Vittoria  
Nadal                     71.5%   49.7%   51.4%  
Del Potro                 9.1%    7.5%    10.0%  
Anderson                  69.1%   68.9%   47.1%  
Carreno Busta             74.3%   71.2%   48.4%

(Non sapendo ancora, al momento della stesura, il percorso di ogni giocatore fino alla vittoria finale, ho fatto una media delle valutazioni Elo dei potenziali avversari. Anderson e Carreno Busta sono molto simili, quindi per Nadal e Del Potro, i loro potenziali avversari, non fa molta differenza.)

C’è una stranezza che emerge da questa statistica e che forse avete notato: nel caso di Nadal e Del Potro, la difficoltà di raggiungere la finale è maggiore di quella per la vittoria del torneo! Naturalmente non ha senso che sia così, ma i numeri si comportano in questo modo per via dell’“Elo di riferimento” che ho utilizzato. Il vincitore medio di Slam è più forte del finalista medio di Slam, quindi la tabella di fatto sottolinea come sia più facile per il vincitore medio di Slam battere i sette avversari di Nadal di quanto non sia facile per il finalista medio di Slam sconfiggere i primi sei avversari di Nadal. È una statistica più efficace nel raffronto tra percorsi passati dello stesso livello, quindi vittoria finale rispetto a vittoria finale, semifinale verso semifinale, ed è quello che farò nel resto dell’articolo.

Eccezioni e stranezze a parte, colpisce quanto più facili siano stati gli altri tre percorsi fino alla semifinale rispetto a quello di Del Potro, che si è rivelato molto più arduo. Anche se scontiamo la difficoltà di battere Roger Federer – che Elo ritiene il miglior giocatore sul cemento al momento in attività pur non essendo a conoscenza dei suoi problemi fisici – il percorso di Del Potro è stato decisamente diverso da quello di Nadal e dei possibili finalisti.

Le “passeggiate” in contesto

Facilità di percorso fino alla semifinale di almeno il 69% sono estremamente rare. Anzi, i percorsi di Anderson, Carreno Busta e Nadal sono tra i dieci più facili degli ultimi trent’anni! La tabella elenca i dieci più facili percorsi precedenti a questi.

Anno  Slam              Semifinalista   Difficoltà percorso  
1989  Australian Open   Muster          84.1%  
1989  Australian Open   Mecir           74.2%  
1990  Australian Open   Lendl           73.8%  
2006  Roland Garros     Ljubicic        73.7%  
1988  Australian Open   Lendl           72.2%  
1988  Australian Open   Cash            70.1%  
2004  Australian Open   Ferrero         69.2%  
1996  US Open           Chang           68.8%  
1990  Roland Garros     Gomez           68.4%  
1996  Australian Open   Chang           66.2%

Nell’ultima decade, il più facile percorso fino alla semifinale è stato quello di Stanislas Wawrinka al Roland Garros 2016, con una probabilità di vittoria del 59.8%.

Il percorso di Del Potro fino alla semifinale non è così estremo, ma è decisamente difficile se lo si osserva in riferimento al passato. Dei circa 500 semifinalisti dal 1988, solo quindici hanno avuto un percorso più facile del suo 9.1%. La tabella elenca i dieci percorsi più facili.

Anno  Slam              Semifinalista   Difficoltà percorso  
2009  Roland Garros     Soderling       1.6%  
1988  Roland Garros     Svensson        1.9%  
2017  Wimbledon         Berdych         3.7%  
1996  Wimbledon         Krajicek        6.4%  
2011  Wimbledon         Tsonga          6.6%  
2012  US Open           Berdych         6.8%  
2017  Roland Garros     Thiem           6.9%  
2014  Australian Open   Wawrinka        7.0%  
1989  Roland Garros     Chang           7.1%  
2017  Wimbledon         Querrey         7.5%

Un’anteprima degli annali

Nel lungo periodo, saremo molto più interessati a sapere come il vincitore degli US Open 2017 abbia vinto il titolo di quanto sia riuscito a superare i primi cinque turni. Come abbiamo visto, tre dei quattro semifinalisti hanno avuto una facilità di percorso del 50% per la vittoria del titolo, vale a dire che un tipico vincitore di Slam avrebbe avuto una possibilità di circa 50/50 di battere questo specifico gruppo di sette avversari.

Nessun vincitore di Slam del recente passato l’ha avuta così facile. Il percorso di Nadal sarebbe il primo dei più facili negli ultimi trent’anni, mentre quello di Carreno Busta o di Anderson arriverebbero tra i primi cinque (se così dovesse essere, i valori precisi dipenderanno da chi affrontano in finale). La tabella riepiloga l’elenco dei giocatori che i tre semifinalisti hanno la possibilità di alterare.

Anno  Slam              Vincitore    Difficoltà di percorso  
2002  Australian Open   Johansson    48.1%  
2001  Australian Open   Agassi       47.6%  
1999  Roland Garros     Agassi       45.6%  
2000  Wimbledon         Sampras      45.3%  
2006  Australian Open   Federer      44.5%  
1997  Australian Open   Sampras      44.4%  
2003  Australian Open   Agassi       43.9%  
1999  US Open           Agassi       41.5%  
2002  Wimbledon         Hewitt       39.9%  
1998  Wimbledon         Sampras      39.1%

Agli Australian Open 2006, Federer ha beneficiato della fortuna per una facilità di percorso simile a quella di Nadal agli US Open 2017. Il suo titolo a Wimbledon 2003 per poco non si inseriva nei primi dieci. In confronto, Novak Djokovic non ha mai vinto uno Slam senza aver dovuto compiere un percorso di facilità superiore a 18.7%, quindi più difficile di quello di più della metà dei vincitori di Slam.

Anche Nadal ha dovuto sudare (non solo figurativamente) per collezionare i 15 Slam del suo palmarès. La tabella elenca i primi dieci più difficili percorsi fino alla vittoria finale.

Anno  Slam              Vincitore    Difficoltà percorso  
2014  Australian Open   Wawrinka     2.2%  
2015  Roland Garros     Wawrinka     3.1%  
2016  Us Open           Wawrinka     3.2%  
2013  Roland Garros     Nadal        4.4%  
2014  Roland Garros     Nadal        4.7%  
1989  Roland Garros     Chang        5.0%  
2012  Roland Garros     Nadal        5.2%  
2016  Australian Open   Djokovic     5.4%  
2009  US Open           Del Potro    5.9%  
1990  Wimbledon         Edberg       6.2%

Come ho lasciato intendere nel titolo di questo articolo, se Nadal quest’anno, per il momento, è stato fortunato a New York, non è sempre andata così. Il suo nome compare tre volte in questa lista, avendo dovuto affrontare avversari più forti di qualsiasi altro vincitore Slam tranne Stanislas Wawrinka, il Davide che sconfigge i Golia.

In media, i percorsi fino alla vittoria di Slam di Nadal non sono stati così impervi come quelli di Djokovic, ma rispetto a quelli di molti altri grandi dell’ultima decade, Nadal ha dovuto darsi parecchio da fare. La tabella riepiloga la difficoltà di percorso media per i giocatori con almeno tre Slam, dal 1988.

Giocatore  Slam da 1988  Difficoltà percorso media  
Wawrinka   3             2.8%  
Djokovic   12            11.3%  
Nadal      15            13.6%  
Edberg     4             14.6%  
Murray     3             18.8%  
Becker     4             18.8%  
Wilander   3             19.8%  
Kuerten    3             22.0%  
Federer    19            23.5%  
Courier    4             26.4%  
Sampras    14            28.9%  
Agassi     8             32.3%

Dovesse aggiungere anche gli US Open 2017 alla sua lista, la facilità di percorso medio di Nadal subirebbe un calo, ma comunque scenderebbe solo di un posto, dietro a Stefan Edberg. Dopo più di dieci anni di battaglie con giocatori tra i più forti di sempre negli ultimi turni di uno Slam, è onesto affermare che Nadal si è meritato questa passeggiata.

Quantifying Cakewalks, or The Time Rafa Finally Got Lucky

Per delle Chiavi del Match più semplici ed efficaci – Gemme degli US Open

di Jeff Sackmann // TennisAbstract

Pubblicato il 10 settembre 2013 – Traduzione di Edoardo Salvati

L’ottavo articolo della serie Gemme degli US Open.

Se avete seguito gli US Open 2013 o visitato il sito internet in qualsiasi momento delle ultime due settimane, non potete non aver notato la presenza di IBM. Loghi e inserzioni pubblicitarie erano ovunque e anche altre fonti informative di solito affidabili non si sono tirate certamente indietro nel sottolineare le capacità statistiche di ultima generazione in possesso della società americana.

Particolarmente difficili da evitare sono state le “Chiavi del Match” (“Keys to the Match”) di IBM, tre indicatori a partita per giocatore. Il nome e la natura delle “chiavi” richiamano con decisione un certo potere predittivo: IBM definisce l’offerta statistica di tennis come “analisi predittiva” e non perde occasione per elogiare il database di 41 milioni di dati punto per punto di cui è proprietaria.

Eppure, come ha scritto Carl Bialik sul Wall Street Journal, non sono analisi così predittive.

Capita spesso di accorgersi che lo sconfitto ha raggiunto più obiettivi espressi dalle “chiavi” rispetto al vincitore, come è stato per la semifinale tra Novak Djokovic e Stanislas Wawrinka. Anche quando il vincitore ha catturato più chiavi, alcuni degli indicatori sono parsi quasi del tutto irrilevanti, come “giocare in media meno di 6.5 punti per game al servizio”, la chiave che Nadal non è riuscito a rispettare nella vittoria in finale.

Stando a un rappresentante di IBM, il gruppo di persone che lavora al progetto è alla ricerca di statistiche “inusuali”, e direi che ci sono riusciti. Il tennis però è un gioco semplice e, a meno di non spacchettare l’analisi ed evidenziare aspetti che nessun altro ha mai approfondito, ci sono solo alcune statistiche che contano davvero. Nella ricerca dell’inusuale, IBM ha lasciato indietro il predittivo.

IBM contro le “chiavi generiche”

IBM ha offerto le Chiavi del Match per 86 delle 127 partite di singolare maschile degli US Open 2013. In 20 di quelle partite, lo sconfitto ha raggiunto lo stesso numero o più chiavi di quelle raggiunte dal vincitore. In media, il vincitore di ciascuna partita ha raggiunto 1.13 chiavi in più dello sconfitto.

Si tratta della migliore prestazione di IBM per la stagione in corso. A Wimbledon 2015, i vincitori hanno raggiunto in media 1.02 chiavi in più degli sconfitti e, in 24 partite, lo sconfitto ha raggiunto lo stesso numero o più chiavi del vincitore. Al Roland Garros 2015, i numeri sono stati 0.98 e 21 partite, e agli Australian Open 2015 1.08 e 21 partite.

In assenza di parametri di riferimento, è difficile giudicare sulla bontà di questi numeri. Come ha fatto notare Bialik: “Forse il tennis è così complicato da analizzare che queste chiavi sono più efficaci di quanto chiunque altro potrebbe fare senza la montagna di dati di IBM e complessi modelli computerizzati”.

Non è così difficile. Anzi, i milioni di dati punto per punto e la ventina di statistiche “inusuali” di IBM sono la complicazione di ciò che potrebbe essere estremamente semplice.

Ho messo alla prova alcune statistiche di base per verificare se potessero esserci degli indicatori più diretti in grado di restituire risultati migliori di quelli di IBM (Bialik le definisce “chiavi di Sackmann”, ma le chiamerò “chiavi generiche”). È straordinaria la facilità con cui ho creato un gruppo di chiavi generiche che pareggiassero i numeri di IBM o facessero leggermente meglio.

Non stupisce che due delle statistiche più efficaci siano la percentuale di punti vinti sulla prima di servizio e sulla seconda di servizio. Ne parlerò in altri articoli, ma queste statistiche – e altre – mostrano sorprendente discontinuità. Vale a dire, esiste un chiaro livello al quale uno o due punti percentuali addizionali fanno una grande differenza per la probabilità di vittoria di un giocatore. Sono dettagli fatti apposta per essere incorporati nelle chiavi.

Per la terza chiave, ho provato con la percentuale di prime di servizio, che non possiede un potere predittivo simile a quello delle due precedenti statistiche, ma il vantaggio di non avere con loro un’evidente correlazione. Un giocatore può avere un’alta percentuale di prime di servizio ma una bassa frequenza di punti vinti con la prima o con la seconda di servizio, e viceversa. E, contrariamente a certa saggezza popolare tennistica, non sembra esserci un livello alto di percentuale di prime di servizio oltre al quale altre prime in campo diventano un fattore negativo. Non è una relazione lineare, ma più prime di servizio rimangono dentro, maggiore è la probabilità di vittoria.

Mettendo tutto insieme, si ottengono tre chiavi generiche:

  • Percentuale di punti vinti sulla prima di servizio superiore al 74%
  • Percentuale di punti vinti sulla seconda di servizio superiore al 52%
  • Percentuale di prime di servizio superiore al 62%.

Sono percentuali che derivano dai risultati degli ultimi anni sul circuito maggiore per tutte le superfici a eccezione della terra battuta. Per semplicità, ho raggruppato l’erba, il cemento e il cemento indoor, anche se tenendole separate si potrebbe arrivare a indicatori leggermente più predittivi.

Nelle 86 partite degli US Open in cui erano disponibili le Chiavi del Match di IBM, le chiavi generiche hanno ottenuto risultati di poco superiori. Utilizzando i miei indicatori – gli stessi tre per ciascun giocatore – lo sconfitto ha raggiunto lo stesso numero o più chiavi del vincitore 16 volte (rispetto alle 20 di IBM) e il vincitore ha raggiunto in media 1.15 chiavi in più dello sconfitto (rispetto alle 1.13 di IBM). Per gli altri Slam, i risultati ottenuti sono simili (con soglie leggermente diverse per la terra battuta del Roland Garros).

Un pianeta più brillante

Non è casuale che la più semplice e più generica impostazione per la definizione di chiavi abbia restituito risultati migliori di quelli dati dall’attenzione di IBM per la complessità e gli aspetti inusuali. Aiuta anche il fatto che le chiavi generiche siano espressione di una conoscenza specializzata (per quanto rudimentale) del campo di applicazione in questione, mentre molte delle Chiavi del Match di IBM, come la velocità media della prima di servizio inferiore a un dato numero di km/h o la durata dei set misurata in minuti, siano invece espressione di ignoranza del campo di applicazione in questione.

Inoltre, commenti dei rappresentanti di IBM suggeriscono che il marketing sia più importante dell’accuratezza. L’articolo di Bialik ha citato le parole “Non è predittivo” di un esponente dell’azienda, nonostante i grandi e colorati cartelloni pubblicitari sparsi in tutto il complesso in cui si giocano gli US Open sostenessero esattamente il contrario. “Coinvolgimento” è il termine che continua a essere ripetuto come un mantra, anche se numeri inusuale che coinvolgono possono non aver nulla a che spartire con l’esito delle partite, e molto del coinvolgimento che ho visto negli appassionati è negativo.

Dopotutto, il vecchio adagio forse ha la sua ragion d’essere: fintantoché pronunciano correttamente il tuo nome, è tutta pubblicità positiva. E non è difficile pronunciare “IBM”.

Chiavi migliori, più consapevolezza

Offuscati dallo sforzo di marketing, è facile perdere di vista il fatto che l’idea delle chiavi di analisi di una partita sia effettivamente valida. I commentatori spesso parlano di raggiungere determinati traguardi, come ad esempio mettere il 70% delle prime. Per quanto ne sappia però, nessuno si è premunito di fare ricerche al riguardo.

Con le chiavi generiche come punto di partenza, potrebbe diventare un percorso molto più interessante. Anche se questi numeri sono dei buoni indicatori di prestazione sul cemento, sono suscettibili di ulteriori sviluppi, principalmente con aggiustamenti specifici per singolo giocatore. Il 74% dei punti vinti sulla prima di servizio è funzionale con un giocatore alla risposta medio, ma con un giocatore alla risposta più scadente come John Isner? La sua percentuale di punti vinti sulla prima di servizio quest’anno è vicina al 79%, a suggerire che è per lui il numero di riferimento per battere la maggior parte degli avversari. Per altri invece potrebbe essere cruciale una frequenza più alta di prime di servizio. O ancora, le soglie di alcuni giocatori potrebbero subire ampie e nette variazioni in funzione della superficie.

Tornerò sul tema in articoli futuri, scendendo nel dettaglio di queste chiavi generiche e cercando di campire come possano essere migliorate. Fare meglio di IBM è gratificante, ma se l’obiettivo è davvero “un pianeta più brillante”, c’è ancora molta ricerca da portare avanti.

Simpler, Better Keys to the Match