
En los últimos años, ha habido un incremento significativo en el acceso a los datos deportivos. Los widgets en los portales, en especial los gamecast, han contribuido a este crecimiento, pero el gran avance se ha dado con la llegada de aplicaciones móviles como SofaScore y OneFootball. Tal y como lo mencionamos en un artículo previo, estas aplicaciones replican los datos suministrados por proveedores como Stats Perform y agregan sus propios índices de evaluación.
No obstante, la contraparte de este acceso a los datos deportivos es que, en muchas ocasiones, aparecen sin el contexto necesario o sin especificaciones de referencia suficientes para entender con exactitud un evento concreto. Por lo general, basta con hacer clic en un equipo o jugador para que se despliegue una ventana con información adicional, pero en algunos casos, esta información resulta incompleta o irrelevante. No hace falta ser un especialista para darse cuenta que el scouting profesional de datos poco tiene que ver con este tipo de datos.
En las redes sociales, especialmente en Twitter, varias cuentas y creadores de contenido han intentado organizar esta información y hacerla más accesible para los fanáticos. Esta tendencia también se ha trasladado a transmisiones de radio y televisión, así como a varios artículos de opinión de diferentes medios.
Este avance ha permitido acercar las estadísticas a un público más amplio y evitar que la discusión sobre datos en el fútbol se limite a un grupo de «entendidos». No obstante, en este proceso han surgido algunas simplificaciones que no siempre hacen justicia a los datos, como las malinterpretaciones de los eventos y el abuso de los rankings. A continuación, abordaremos estos dos temas para aclararlos.
¿El que lo hace más veces es el mejor?
En los últimos cincuenta años, una de las ideas más destacadas en las ciencias sociales ha sido la tesis central de Mark Granovetter, que sostiene que en muchas ocasiones son los lazos débiles son los que resultan determinantes en la resolución de cuestiones importantes en nuestra vida: es poco probable que un amigo intimo (lazo fuerte) nos consiga trabajo, sin embargo es más plausible que la oportunidad laboral llegue por un conocido de un amigo (lazo débil) o un pariente lejano.
Esta “fuerza de los vínculos débiles” funciona bastante bien en el fútbol: el vinculo recurrente de pases entre los dos centrales no aporta demasiado al ataque del equipo como lo hacen algunas relaciones más excepcionales que involucran a los delanteros, pero son los defensores los que aparecen liderando el ranking.
¿A qué voy con esto? A que a diferencia de otros deportes, en el fútbol la cantidad no necesariamente está relacionada con una buena actuación. Hay otros factores en juego, especialmente porque no todos los jugadores participan de la misma manera en el campo. Por lo tanto, es difícil que un ranking explique adecuadamente su rendimiento.
Retomando una idea mencionada en artículos previos, es importante destacar que, si bien el fútbol genera gran cantidad de datos relevantes, estos deben ser interpretados de manera distinta a otros deportes de equipo. Por ejemplo, a diferencia del béisbol, no existe un promedio de bateo que permita medir de forma uniforme a todos los jugadores en el fútbol. Por lo tanto comparar linealmente datos entre futbolistas de diferentes posiciones o equipos con estrategias distintas carece de sentido y le deja la mesa servida a quienes siguen argumentando que el fútbol es igual hace setenta años y los datos no aportan no sirven para nada.
En la próxima entrega de Datos detrás del Dato, profundizaremos en las métricas avanzadas que hacen justicia a eventos que se dan con menos recurrencia, por lo pronto repasamos los errores más comunes en la interpretación de las acciones más generales.
Los datos sin contexto son un pretexto

Los datos muestran que la mayor cantidad de pases en el fútbol argentino los realizan los defensores y los volantes centrales (incluyendo lo que llaman mediocentros, pivotes, etc). Ahora bien, para dar muchos pases, al igual que para ser un conductor de Uber con muchos viajes, es necesario que la mayoría de ellos sean cortos. Es por eso que los jugadores que se desempeñan en la zona de salida y gestión del juego suelen realizar más pases y ser más precisos en general. Los pases largos, toman más tiempo y conllevan más riesgo de perder la posesión a la vez que alargan los tiempos que pasa un jugador sin contacto con la pelota.
Además, hay que tener en cuenta que la estrategia de los equipos a menudo incluye un plan de juego que implica mantener la posesión del balón y asociarse en corto o saltar líneas. Por esta razón, los futbolistas de los equipos con mayor posesión del balón tendrán más oportunidades de realizar más pases y ser más efectivos en este aspecto.
¿Conclusión? Hayan jugado bien, mal o regular, el ranking de pases y efectividad en un partido, seguramente lo lidere uno de los defensores centrales o el volante central del equipo que tenga más la pelota. Como sabemos que la posesión suele estar atada al resultado, es muy probable que un defensor central o un volante del equipo perdedor termine liderando el ranking de pases o efectividad sin que esto implique que haya tenido impacto real en el juego.
Este mismo principio se aplica a los rankings del torneo. Es poco probable que los jugadores de un equipo que apuesta por el «juego directo» puedan entrar en el top 10 de los indicadores de pases y efectividad. Sin embargo, esto no implica que no este poniendo pases precisos importantes para el rendimiento y la idea de juego del equipo.
Asociado a esta cuestión, también aparece el tema de los “touches”, que a veces se traduce como “toques de balón” pero su definición más cercana es la de “intervenciones”: la cantidad de veces que se le computan eventos con el balón a un futbolista. Dado que el pase es el evento más recurrente, la tendencia es que sean los mismos jugadores con más pases (defensores y volantes centrales) los que tienen más intervenciones en el juego. A estos, eventualmente, pueden sumarse los defensores laterales en el caso de los equipos que atacan por las bandas, ya que estos suelen protagonizar un gran cantidad de duelos, tanto teniendo la pelota como tratando de quitarsela a un rival.
En consecuencia, el «fue el jugador del equipo con más toques de balón (o pases)» clásico de Twitter es verdadero pero hay que tomarlo con pinzas, ya que la «competencia» no es en igualdad de condiciones: depende del rol en el sistema de juego e incluso del tiempo en el campo. Recuerden que ahora se usan hasta cinco substituciones y en general ni los defensores ni los volantes centrales son las primeras opciones para dejar el campo, lo que los pone en una situación particularmente ventajosa respecto a este ranking.
¿Esta mal presentar le ranking de pases o decir que tal jugador fue el mejor en este apartado? Por supuesto que no. Sin embargo, conocer la tendencia general de los datos puede hacer que la interpretación del ranking sea más interesante. Si un volante creativo o un delantero aparece de repente en la cima de la lista, es una situación especial que merece ser destacada, como lo fue el protagonismo de Diego Maradona en su último partido mundialista contra Nigeria (ver gráfica), donde fue el jugador con más intervenciones y uno de los principales pasadores, con registros que lo colocaron en el top 10 de aquella Copa del Mundo.

No hay que mentirse al solitario, hay que evitar caer en la trampa de automatizar la selección de métricas basadas únicamente en el rol del jugador en el equipo, ya que esto puede llevar a una evaluación sesgada de su rendimiento y a una falta de consideración de otros factores que pueden ser clave para su desempeño. Al evaluar el desempeño de un jugador, es importante no limitarse a las métricas superficiales y tomar en cuenta factores más complejos que puedan tener un impacto significativo en el resultado del partido.
Más simple, si queremos hablar bien de un volante central, es fácil centrarnos en la cantidad o la prescisición de sus pases porque son datos que nos llevan a una estadística «positiva» (por el número alto), aunque la actuación no haya sido buena. En lugar de eso, debemos considerar las consecuencias de esos pases en el juego, lo cual se puede medir a través de métricas como el xT (Expected Threat), xA (Expected Assists) o incluso mediante los mapas de distribución de los mismos.

Sin la pelota, la tendencia se invierte.
Así como en los pases y los toques de balón los jugadores de los equipos con más posesión tienden a aparecer en los primeros lugares de los rankings, en el caso de los indicadores defensivos, la situación suele ser la inversa.
Cuando se ve la palabra «recuperación», uno la asocia inmediatamente con una acción de quite. Sin embargo, en la mayoría de las aplicaciones que llevan un seguimiento de eventos deportivos, la «recuperación» se refiere a cualquier tipo de recuperación de la posesión, incluso acciones pasivas como obtener la pelota después de un rechazo largo del rival. Debido a su posición en el campo, otra vez los defensores y los mediocampistas centrales están en ventaja para sumar acciones de este tipo.
Al leer el ranking de recuperadores, es importante considerar tres cuestiones fundamentales: en primer lugar, comprender el tipo de recuperación que se está evaluando; en segundo lugar, evaluar si algún equipo monopolizó el balón (reduciendo las chances de un gran número de recuperaciones); finalmente, tener en cuenta si alguno de los equipos apostó por una estrategia de envíos largos que permiten sumar recuperaciones pasivas al rival.
En cualquier caso, es importante señalar que la suma de recuperaciones no depende únicamente de la actuación del jugador o de su intención. Hay un factor fortuito y contextual que influye de manera más directa en los datos de recuperaciones en el fútbol, que, por ejemplo, en el caso de los robos en una planilla de básquetbol. Eso no quiere decir que el evento preciso que refiere a los quites activos en el fútbol no este relevado o que no se pueda desagregar para hacerle justicia al análisis, sino que, por ahora, se ha popularizado su versión más general.
Un duelo con ventaja

En los duelos por la pelota, también suele haber con una lectura incompleta de las carácteristicas del evento.
La tendencia es asociar la palabra «duelo» al concepto de pelota dividida. Uno se imagina dos futbolistas yendo a luchar por un balón perdido mano a mano o disputando una pelota en el aire, quedando como ganador el que se queda con ella. Lo cierto es que los duelos no se restringen solamente a eso.
Opta – Stats Perform define el duelo como cualquier disputa en la que un jugador pone en juego el balón contra otro, incluyendo situaciones en las que un delantero avanza con la pelota controlada y enfrenta a un defensor. Es importante destacar que superar a un rival mediante un regate o una acción técnica se contabiliza como un duelo ganado. Esto explica por qué jugadores habilidosos como Messi tienen una cantidad significativa de duelos ganados por jugadas de este tipo, lo que invalida la idea de que se debe a una mayor dedicación en la marca o a «ir a correr todas las pelotas».
Nuevamente, esta en la naturaleza del juego que el haber más defensores que delanteros, sean estos últimos los que protagonicen más duelos. Como también, que los defensores tengan cierta ventaja, especialmente en los duelos áreos donde reciben de frente, y esta se refleje en un mayor porcentaje de duelos ganados. Otra vez, los rankings tienen un sesgo a destacar alguno posiciones en el campo por sobre otras.
Las ventajas de estar expuesto
Un ejemplo aún más claro de los problemas que surgen al sumar cuantitativamente los eventos se da en el caso de los arqueros. Nuevamente, el contexto es crucial: el que registra la mayor cantidad de atajadas en un torneo suele pertenecer a alguno de los equipos que concedieron más remates al arco, simplemente porque tiene más oportunidades de atajar que aquellos con defensas que impiden remates al arco del rival.

Eventualmente puede presentarse un indicador porcentual (remates atajados / remates totales) pero al ser evaluados sobre denominadores marcadamente diferentes, los arqueros de Elche o Cadiz duplican la cantidad de remates concedidos que Ter Stegen, esto también puede sesgar el resultado, para bien o para mal, especialmente del guardameta que enfrentó menos remates.
Para evitar estos problemas, se han desarrollado indicadores como el xGOT y los “goles prevenidos” asociados a los goles esperados. Vamos a volver sobre esto en próximas entregas, pero pueden leer un ejemplo práctico en esta nota del Diario La Capital.
Los pases clave son menos que su reputación
La definición de “Key passes”, también presentada como “Chances Created”, es traducida como «pases clave» en la versión literal, «ocasiones creadas» en la engañosa y «pases en profundidad» en la (demasiado) entusiasta. Es el ejemplo máximo de la confusión que puede traer una traducción desacertada en este ambito.
Lo que se considera «Key Passes» o «Chances Created» es bastante simple: se refiere a las asistencias de remate o, dicho de manera más sencilla, los pases que culminan en un disparo de un compañero, incluyendo los córners o tiros libres («inflando» esta estadística en los encargados de la pelota parada9.
No importa dónde se den estos pases en el campo, sino que el jugador que lo reciba termine con un tiro al arco rival. Tampoco son ocasiones creadas, en el sentido de situaciones de gol que pensamos coloquialmente (acá el más parecido es el evento «big chances» pero enfocado en el definidor no en el generador). De hecho, una situación manifiesta de gol puede no tener un pase previo al tiro y no computar en este indicador: por ejemplo, si un delantero le quita la pelota al defensor contrario cerca del área rival y culmina la jugada con un remate.

La definición de «chances creadas» computa de igual manera un pase brillante que pone a un compañero de cara al gol, como un pase menor que termina en un remate por la capacidad del receptor de generarse el hueco. El mejor ejemplo es el pase de «el Loco» Enrique a Maradona en el segundo gol contra Inglaterra en el Mundial de México 1986, que cuenta tanto como chance creada e incluso como asistencia, aunque no haya ayudado demasiado a poner a Maradona en situación de gol.
Una cuestión clave a tener en cuenta: las definiciones de los eventos dependen de los proveedores que generan los datos. Si bien nos centramos en las definiciones de Stats Perform debido a su relación con las aplicaciones que suelen alimentar los rankings que se muestran en redes.
En este punto, es fundamental no enojarse con las definiciones, es muy difícil generar un diccionario de eventos con el que todos estén de acuerdo y pueda utilizarse en todo el mundo. Por ese motivo, los proveedores siempre dan la opción a sus clientes de hacer recálculos y crear las métricas puntuales que consideren (como la posesión en ventaja que vimos en el capítulo uno de esta serie), y por ese motivo también es tan importante que haya analistas de datos que puedan reprocesar los datos y crear indicadores ajustados a cada situación.
Recuerden que cada empresa tiene sus propias definiciones, las cuales pueden no coincidir. Por lo tanto, es fundamental citar la fuente original cada vez que se publica un dato, para tener una comprensión clara de lo que estamos hablando. Además, son los desarrolladores de estas aplicaciones quienes seleccionan una serie de eventos de la gran cantidad disponible en los feeds de los proveedores. Con mucha lógica, dada las carácteristicas de la mayor parte de su audiencia, tienden a decantantarse por aquellas estadísticas más generales y fáciles de seguir.
Para volver al tema de los key passes y los rankings, es importante destacar que este tipo de listas suele estar liderado por jugadores de equipos que realizan más remates, independientemente de la probabilidad de gol que tengan (lo que se conoce como goles esperados). Por ejemplo, la selección boliviana cuando juega como local en la altura, suele rematar mucho desde media y larga distancia, lo que hace que sus jugadores sumen en este apartado, aunque su equipo no sea el más goleador ni el que más peligro genere en el área rival. En este caso, el contexto que reclamamos para un dato puntual (los remates) bien puede darlo una métrica avanzada asociada (goles esperados).

El problema del denominador
Gran parte de las aclaraciones que proponemos en este artículo están relacionadas con entender en qué contexto se calculan las métricas o se generan los indicadores, tanto desde lo numérico como de lo conceptual.
Acá aparece lo que llamamos “el problema del denominador”: terminamos siendo injustos con el arquero que le llegan poco, tachamos de impreciso al central que el entrenador le pide que juegue largo, o creemos que estamos ante un generador de oportunidades de gol frente cuando un volante entrega pases a jugadores con predilección al remate de media distancia.
Las métricas avanzadas creadas en los últimos años, le hacen más justicia a la performance de los futbolistas, porque incorporan información contextual en el indicador. Esto no implica que haya que descartar los rankings clásicos, pero si tener presente las tendencias generales para detectar cuando un primer puesto es realmente una actuación destcada.
Esto hay que ampliarlo a cuestiones aún más generales cuando se analiza un torneo o temporada, cosas tan simples como la cantidad de partidos jugados muchas veces se dejan de lado en pos de encontrar una posición más alta en un ranking para determinado futbolista. Al revés también sucede: se apela al dato por 90 minutos con futbolistas de escasa participación sesgando el resultado en comparativas con jugadores que los triplican en tiempo de juego.
Aunque tediosas, las aclaraciones de los cálculos, así como las referencias al proveedor que origina el dato, son necesarias y hacen a la comprensión real de la información. Esto no solo ayuda a las audiencias sino que además es una forma que tiene el analista de mostrar que sabe lo que esta presentando.
De igual manera, es importante entender que, así como existen notas clickbait que nos atrapan, es inevitable que exista cierta manipulación de los datos para hacer posteos más virales. Especialmente por parte de CMs que son medidos en visualizaciones y repercusiones más allá de la especificidad de la información presentada. Hay audiencias para todo, y seguro a una parte del público le funciona el dato plain vanilla y no hay nada de malo en eso.
Los datos sueltos como excusa
El problema surge cuando, para descalificar todo lo relativo al uso de datos en el fútbol, se toma como «big data» o «análisis de datos en el fútbol» únicamente esta versión simplificada de las estadísticas que aparece en notas clickbait y en las redes sociales.
Es cierto que, cuando los datos se presentan descontextualizados y se utilizan más como forma que como contenido en las redes sociales, se los expone a la crítica absolutista. Una suerte de fuego amigo consecuencia de la saludable y necesaria masificación del acceso a las estadísticas que esas mismas simplificaciones generaron.
Por otro lado, también es cierto que quienes se enarbolan en esa movida detractora suelen desconocer de la profundidad de los datos disponibles, en muchos casos como consecuencia que los propios analistas fallen comunicar las ventajas y en otros, porque prefieren cargar sobre este apartado complementario gran parte de los males del fútbol moderno.
De nuestro lado, seguiremos explicando qué hay detrás de los datos.
Notas Finales
Los datos utilizados son de Opta – Stats Perform y corresponden a la temporada completa 2022 de la Liga Profesional de Fútbol Argentino (Copa de la Liga + Torneo LPF) y a la temporada 2022/23 de La Liga de España (datos al 6 de Marzo de 2023).
Se presentan a modo ilustrativo datos de estas competencias, sin embargo la tendencia se repite en otras ligas y torneos alrededor del mundo.
Se utiliza como referencia la posición en el campo más habitual de los futbolistas analizados.
Follow Me