La soggettività delle statistiche
di Alfredo Giacobbe
Le statistiche sono un supporto analitico per chi osserva e giudica un evento sportivo ormai da qualche decennio. Negli ultimi tempi, però, si è rincorsa l’utopia di sintetizzare la realtà attraverso un solo numero, immediatamente consultabile e di per sé trasparente: nel basket, ad esempio, una decina di anni fa, John Hollinger mise in piedi il PER, una super combinazione di tutti gli indici conosciuti in una sola cifra.
Per gli appassionati di statistiche e calcio, gli Expected Goals hanno rappresentato negli ultimi anni l’approdo a una specie di terra promessa. Il fascino dell’idea che una singola statistica restituisse il potenziale offensivo di una squadra, anche al di là dell’imponderabile: al di là di periodi più o meno sfortunati, o delle difficoltà poste dal calendario.
I modelli di xG si sono rivelati uno strumento formidabile specialmente per rivelare i trend nelle fasi iniziali di una stagione. Per fare un esempio di efficienza predittiva, i neonati xG de L’Ultimo Uomo – a cui ho lavorato nel corso della scorsa stagione e che stiamo usando in pianta stabile dall’inizio di quella in corso – hanno lasciato intuire che qualcosa bolliva nella pentola atalantina nonostante le 4 sconfitte nelle prime 5 partite, così come hanno svelato l’overperformance del Milan, passato poi dal secondo posto di inizio dicembre all’attuale settima piazza. In un certo senso, gli xG hanno ripagato le aspettative.
Certo, non sono privi di limiti criticabili e frustranti per chi vuole analizzare un evento complesso come una partita di calcio, con ventidue attori sul palcoscenico e un oggetto del contendere difficile da controllare con i piedi. Il primo e principale problema è che gli xG tengono in conto delle azioni che partecipano alla costruzione del tiro, ma ignorano completamente le posizioni relative ai 22 giocatori in campo al momento della conclusione. È così perché, banalmente, la collocazione spazio-temporale dei giocatori non è disponibile.
In particolare, gli xG ignorano la posizione dei difendenti, quindi non considerano la pressione che questi portano al tiratore. Faccio un esempio concreto che riguarda l’ultimo, spettacolare Fiorentina-Napoli. I gol di Insigne e Bernardeschi si assomigliano per come sono stati costruiti: distanza e angolo di tiro, relativamente alla porta, sono simili ed entrambi nascono da azioni individuali. Senza alcuna sorpresa, i valori xG delle due conclusioni differiscono appena per la terza cifra decimale: 0,024 xG per il napoletano, 0,026 xG per il fiorentino.
Tra le due conclusioni, però, c’è una differenza sostanziale: Insigne è libero di girarsi e di alzare la testa verso la porta, ha il tempo di crearsi lo spazio sul destro prima di calciare; Bernardeschi è inseguito dal centrocampista, che ne influenza la corsa e la battuta. La pressione sul tiratore è ben diversa e la bravura di Bernardeschi, nel realizzare un gol in condizioni ben più avverse, è superiore.
Cosa c’è dopo gli xG
Gli Expected Goals sono il migliore strumento di analisi oggi a disposizione, ma si sta già lavorando per superarne i limiti. Le strade oggi battute sono sostanzialmente due, e lo saranno almeno fino a quando i giocatori non indosseranno un localizzatore GPS (rendendo disponibili le statistiche “fisiche”, tipo posizione, chilometri percorsi, chilometri percorsi ad alta intensità, aprendo anche alla possibilità di incrociare questo tipo di statistiche a quelle “tecniche”) .
Da un lato si cerca di aggiungere ingredienti alla ricetta degli xG, cioè si prova a dare maggiori informazioni all’algoritmo che calcola le probabilità di successo di un tiro: ad esempio si aggiungono informazioni relative alla catena dei passaggi che hanno generato il tiro, e non più solo sull’assist vincente; oppure si tenta di creare un profilo del tiratore, inserendo dati sulla precisione al tiro tenuta nella stagione corrente o in quella passata.
Dall’altro lato si sta provando a creare metriche che ignorano completamente l’output finale: nei cosiddetti “non-shot models” si tenta di dedurre i rapporti di forza tra due squadre da altri fattori che non siano la costruzione o l’esito delle conclusioni a rete. L’applicazione del modello di Grund alla Serie A che trovate qui è appunto un esempio di non-shot model.
Charles Reep, il primo a elaborare un modello statistico da applicare al calcio. Nella sua idea l’aumento della quantità di palle lunghe aumentava proporzionalmente la pericolosità offensiva di una squadra.
Il senso dei modelli
Perché si costruisce un modello? Perché in definitiva il calcio è uno sport estremamente complesso, il cui risultato dipende da un evento sporadico come il gol. La scorsa stagione, nelle 380 partite giocate in Serie A sono stati segnati 979 gol, cioè una media di 2,58 reti a partita e di 1,29 reti per squadra.
Il calcio è diverso per struttura: non è uno sport di situazione, e se escludiamo i calci piazzati, le azioni si susseguono mentre il cronometro scorre continuamente. Bisogna anche considerare che lo sviluppo del gioco è fortemente influenzato dalla relazione che esiste tra un numero di giocatori più alto che in altri sport.
Insomma, si creano modelli della realtà proprio per ridurre la sua complessità. La riduzione a un numero finito di variabili comporta però delle scelte: ogni componente va pesato, incluso o scartato. Bisogna sottolineare che dietro ogni scelta c’è un’idea personale su cosa ha più o meno significato nel Gioco. Il modello degli Expected Goals è quindi soggettivo per costruzione. Quanto è importante che il tiratore abbia calciato col suo piede preferito o con quello sbagliato? Che differenza fa che l’assist sia arrivato da un cross o da un filtrante? Includere un fattore e ignorarne un altro è una scelta che chi mette in piedi un modello fa sulla base delle proprie conoscenze e delle sue percezioni sul Gioco.
Ma non è solo l’elaborazione di un modello a essere soggettiva, a ben vedere tutte le statistiche lo sono, per quanto suoni straniante quest’affermazione parlando di numeri. Alla base di ogni analisi attraverso le statistiche c’è bisogno di un’interpretazione.
Edin Dzeko è il miglior attaccante del campionato secondo gli xG, ininterrottamente dalla prima giornata ad oggi. Avremmo tutti commesso un errore se da questo singolo dato avessimo dedotto di aver sbagliato le nostre valutazioni su Dzeko lo scorso anno (cosa che alcuni quotidiani hanno invece fatto, nei loro “mea culpa” autunnali). Dal rapporto (scadente) tra tiri e gol abbiamo capito che le capacità realizzative di Dzeko non erano affatto cambiate da un anno all’altro, e che la Roma stava banalmente costruendo per lui occasioni migliori, più vicino alla porta, e in maggior numero rispetto allo scorso anno. Ma per arrivare a questa conclusione ragionata, abbiamo dovuto scegliere le statistiche da associare tra loro. È un atto che comporta una responsabilità verso il lettore: avremmo potuto esaltare il centravanti o gettarlo nella polvere, banalmente scegliendo il dato che faceva più comodo allo scopo.
Le statistiche sono tra noi per restarci e dobbiamo imparare a convivere con l’approccio analitico all’analisi sportiva, che sarà sempre più presente nel linguaggio dei media.
Nasceranno nuovi strumenti, i vecchi si affineranno. Ne trarremo tutti vantaggio, perché potremo confrontare tra loro le prestazioni del passato e fare previsioni su quelle del futuro. Ma dobbiamo anche diventare consapevoli, criticamente, che dietro ogni sistema di numeri c’è l’interpretazione di chi li presenta. I numeri non mentono, le persone a volte sì.
Alfredo Giacobbe è nato a Napoli, dove vive e lavora. Ingegnere come Manuel Pellegrini, ha dipinto l’area tecnica attorno al suo divano. Redattore de l’Ultimo Uomo per il quale ha creato l’unico indice Expected Goals italiano.