Big Data Sports

Zoom sobre los “goles esperados”: la métrica más avanzada del fútbol

Repasemos estas máximas frecuentes del fútbol: “Los goles que no se convierten en el arco rival se sufren en el propio”, “Fue un gol de otro partido”, “Tuvo muchas chances pero no convirtió, el rival lo embocó en la única que tuvo” y la lista es casi inagotable.

Hablamos de un deporte donde siempre se ha debatido la justicia de los resultados, aunque generalmente desde aproximaciones subjetivas y basadas fundamentalmente en los criterios de protagonistas y cronistas. En ocasiones, este análisis cualitativo ha tenido algunas estandarizaciones numéricas, como los clásicos “ping-pong de llegadas” habituales en los programas de televisión o el viejo “resultado moral” que se incluía en los resúmenes de la querida e innovadora revista argentina Solo Fútbol en los años ochenta. 

Esta tendencia cambió radicalmente en la última década y es desde el análisis de datos que surgieron los principales recursos para entender y contextualizar los resultados. 

En la era del Big Data, en el fútbol no se puede seguir repitiendo mantras a la hora de buscar explicaciones, al menos no sin antes agotar los abordajes que puedan generar dichas explicaciones desde la información disponible.

Existen indicadores (no tan) nuevos que están siendo subutilizados, en parte porque son desconocidos para una parte del público y en parte porque su representación no termina de ser la más accesible.  El más relevante de ellos son los goles esperados (xG)

Recordatorio: cada vez que lean “xG” estaremos hablando de goles esperados

xG, la métrica avanzada que va camino a convertirse en un clásico

Sin entrar en detalles puntuales de cada uno, nos vamos a enfocar en tres cuestiones fundamentales: 

  1. Presentar el indicador y su lectura para quienes aún no lo conozcan, 
  2. Terminar de explicarlo para quienes oyeron hablar o vieron xG en algún partido pero aún no profundizaron,
  3. Sugerir un enfoque alternativo para quienes ya lo utilizan y lo replican en distintos análisis.

Los goles esperados (xG) conceptualmente fueron la primera gran respuesta del mundo de datos para explicar los resultados sin caer en lecturas lineales como la cantidad de remates o el número de llegadas. 

Muy resumido, se trata de un indicador que asigna un nivel de probabilidad entre 0 y 1 a cada remate de acuerdo a las condiciones en las que se realiza; posición, ángulo, tipo de jugada, oposición, posicionamiento del arquero, etc. Las variables incluidas y su ponderación dependen de cada modelo, que suele variar según el proveedor y/o el analista que lo desarrolle.

La suma de esas probabilidades es el número de xG que suele mostrarse en los reportes y algunas transmisiones, generalmente en conjunto con el resultado del partido, la posesión y otras estadísticas. Por ejemplo, en el 4 a 3 con el que Francia eliminó a Argentina, los galos sumaron 2.34 (1.6 + 1 penal, cuya probabilidad regularmente se asigna el valor de 0.74) y el equipo de Sampaoli 1.0.

Paradójicamente o no tanto, fueron los mismos analistas que construyeron los modelos que sustentan el xG fueron los primeros en notar que no alcanzaba con este enfoque para explicar la totalidad de las situaciones de gol. Básicamente porque no todas terminan en remates, y por ende, no todas pueden entrar en el modelo que calcula los xG.

Esa limitación dio lugar a un gran número de métricas alternativas, como el Non-Shot xG e incluso aportó a la creación de indicadores complementarios como el xT o las xA de las cuales hablamos (y hablaremos) en otras ocasiones.

Volviendo a los goles esperados, el punto a resaltar es justamente que los xG es una métrica que analiza los remates y no el resultado en sí mismo: desde el mismo nombre del indicador y la tendencia a presentarlo en relación al resultado final, su lectura suele confundir al espectador no especialista y puede llevar a conclusiones erróneas, especialmente si se “esconde” la construcción del número acumulado como muchas veces sucede.

Ciertamente, es difícil presentar en cada visualización o reporte los detalles de los modelos que utiliza para calcular los xG cada proveedor y analista; sin embargo se desentraña poco el aporte de cada jugador y de cada remate a ese número acumulado de goles esperados que suele presentarse, ahí entra nuestro abordaje alternativo.

Decíamos que el mayor aporte de los xG está en ayudarnos a relativizar la importancia de la cantidad de remates de un equipo y otro, veamos un par ejemplos:Según los datos oficiales, en el último superclásico Boca tuvo un xG más grande (1.32) que River (1.12), aún cuando pateó menos (10 contra 12), eso quiere decir que las llegadas que terminaron en remate de Boca fueron más claras que las de su rival. De paso esta información contextualiza el dato de posesión (71% a 29% a favor de River) que suele leerse errónea y linealmente como una prueba del dominio de un equipo sobre otro.En esa línea, otro ejemplo aún más contundente fue la semifinal de la Copa América 2019 entre Brasil y Argentina, donde el equipo de Scaloni acumuló 0.45 xG en 14 remates, mientras que Brasil sumó 1.40 xG en solamente 4 disparos (en datos de wyscout). 

Esta variante no tiene pretensiones de originalidad sino que  trata de reordenar las piezas ya disponibles, asumiendo que estamos ante un análisis de la calidad de los remates. Insistimos: calidad en cuanto a probabilidad de gol y no cuestiones técnicas en el impacto del balón. A lo que voy es que grandes rematadores como el Mago Capria o Pablo Bengoechea estrictamente no tendrían mayor xG que otros futbolistas por la manera en que ejecutan el disparo, en todos los casos el indicador depende del conjunto de variables que acompañan a tal acción y que señalamos previamente.

“El segundo plano de la discusión es más complejo, pero mucho más interesante, el dato te lleva al segundo plano” me decía hace un par de años el periodista de ESPN Miguel Simon. En ese sentido, el xG es un ejemplo perfecto del dato que puede establecer un debate enriquecedor sobre el juego: ¿Es mejor llegar menos veces con más profundidad o tener múltiples aproximaciones? ¿Fue justo el resultado porque benefició al equipo que generó las chances más claras (de mayor probabilidad de gol) por sobre el equipo que lo intentó más veces?

Sin embargo, para poder materializar esa discusión, es necesario disponer de una mayor cantidad de información y allí es donde muchas de las representaciones actuales de los goles esperados no terminan de hacerle justicia.  

En un fútbol que repite hasta el cansancio que los partidos se definen en detalles, proponemos un zoom sobre el indicador profundizando en cada evento en cuestión para poder entender el aporte puntual de cada remate al número acumulado de los xG.

Un ejercicio (y un ejemplo) sobre datos reales y disponibles para todos

¿Cómo visualizar datos de goles esperados desde este enfoque? Básicamente vamos a trabajar en tres niveles, el habitual con el acumulado de partido (+ su evolución), un primer desagregado agrupando los remates por su probabilidad de gol y un segundo nivel de detalle donde de cada remate sabremos que tipo de jugada lo generó, cual fue el resultado y que nivel de probabilidad le asigna el módelo.

Para que el ejercicio pueda ser replicado lo haremos con la fuente de datos abierta más habitual para trabajar con xG, se trata del sitio understat.com que contiene el detalle por partido de cada una de las top 5 ligas europeas.

En esta nota de Big Data Sports dejamos una adaptación y ampliación del código de McKay Jones para obtener los datos y archivos para visualizarlos junto con una breve explicación para quienes quieran replicar la idea.

Nuestra propuesta se divide en dos visualizaciones:1) Un clásico campo de juego indicando el lugar donde se realizaron los remates, donde el tamaño de la representación de cada uno de ellos está alineado con la probabilidad de gol calculada por el modelo de xG (más grande, mayor probabilidad). Resaltamos los remates que efectivamente terminaron en gol, como también los de mayor probabilidad que no fueron anotaciones.
En la parte derecha, vemos los xG acumulados y su relación con la cantidad de remates, agrupando la cantidad en función de las probabilidades de los remates, así vemos que el Real Madrid tuvo 14 remates, pero 10 de ellos fueron de baja probabilidad (menor al 0.10), 3 de media (0,10-0,40) y sólo uno (un remate de Sergio Ramos atajado por Edgar Badia) de alta probabilidad (0,40). Las agrupaciones son de referencia y obviamente pueden ajustarse eventualmente a gusto y fundamentos del analista.

2) La segunda gráfica detalla en orden cronológico la probabilidad de gol de cada uno de los remates del partido, agregando el tipo de jugada (abierta, pelota parada, desde córner, etc) y el resultado del disparo (atajada, gol, palo, etc). Destacando una vez más los envíos que terminan en gol para analizar en qué tipo de circunstancia convirtió cada equipo.

Consecuentemente, la tabla expone también aquellos remates de alta probabilidad que no terminaron en gol, facilitando la lectura de cuando y cuales fueron estadísticamente las chances más claras desperdiciadas por uno y otro equipo.

…Y al Final

Lejos de presentarse como una alternativa visualmente novedosa o conceptualmente revolucionaria, este tipo de presentación busca clarificar la lectura de los xG por parte del público no habituado, haciéndolos parte y tratando de poner al alcance una parte del potencial que los datos tienen para hacer lecturas más profundas y complejas del juego.

Una vez más estamos ante otro ejemplo de cómo la estadística ha avanzado en el fútbol, no solo por la complejidad que ha alcanzado sino por la disponibilidad y cercanía de estos indicadores. 

En el fondo, se trata de democratizar la información disponible, profundizar el debate y continuar generando ideas sobre el juego que nos apasiona. Casi nada en este complejo 2021 que acaba de empezar.