La historia de los goles esperados (xG) y aplicaciones prácticas

Bienvenidos al comienzo de una serie de artículos en los que trataremos de explicar las nociones básicas del análisis de datos en el fútbol. Históricamente la mayoría de la investigación en este área ha sido en inglés, pero queremos contribuir a cambiar eso. Esto pretende ser un manual básico para entender las métricas que se están generalizando en el fútbol y previsiblemente serán parte del vocabulario estándar en pocos años.

Vamos a comenzar con el marco general empleado en la mayoría de análisis actuales: los Goles Esperados (xG).

Definición de los Goles Esperados (xG)

La probabilidad de que un tiro dado termine en gol.

Vamos a tomar como ejemplo a un jugador que remata desde un lugar en el campo, queremos saber cuántas veces han sido gol los tiros desde esa posición y con características similares. O, un equipo ha generado una gran cantidad de ocasiones a lo largo de una serie de partidos pero ha marcado pocos goles, ¿el problema ha sido el acierto a puerta? ¿O simplemente las ocasiones no han sido de calidad?

Los modelos de Goles Esperados ofrecen un marco formal para dar respuesta a estas preguntas.

¿Por qué nos interesan los tiros?

Los goles son los sucesos más importantes en un partido puesto que determinan los ganadores y perdedores. Sin embargo, los goles son también uno de los eventos más infrecuentes en el fútbol. En las grandes ligas, el promedio se sitúa entre 2.5-3 goles por partido. Todo ello hace del fútbol el deporte más imprevisible y emocionante del mundo pero al mismo tiempo complica la tarea de analizarlo estadísticamente dado que el mejor equipo gana menos veces que en otros deportes.

Por poner un ejemplo opuesto, en la NBA es normal que ambos equipos anoten más de 90 puntos por partido generando muestra suficiente para analizar el rendimiento a través de los puntos. Sin embargo, no podemos hacer lo mismo en el fútbol cuando sólo tenemos dos o tres goles por partido puesto que la varianza es mayor. Esto hace del fútbol un deporte en el que la suerte tiene un papel significativo.

Sabemos que los goles vienen precedidos por tiros, puesto que para hacer gol es necesario rematar. Por tanto, podemos dar un paso atrás y fijarnos en los tiros. De repente, en vez de entre 2.5-3 eventos por partido, tenemos entre 25 y 30 - diez veces más.

Analizar los remates fue la base de algunos de los primeros análisis estadísticos en fútbol: Si el 10-11% de los tiros terminan en gol, la lógica nos dice que los equipos que disparan más que sus rivales deberían ganar un porcentaje mayor de partidos. Gente como Gabriel Desjardins, James Grayson, y Benjamin  implementaron estas ideas desde el análisis del hockey y crearon la métrica Total Shots Ratio.

La métrica Total Shots Ratio es el ratio entre los tiros de un equipo y el total de tiros en un partido o una serie de partidos.

Total Shots Ratio (Equipo A) = Tiros a favor  / (Tiros a favor + Tiros recibidos)

Vamos a ver un ejemplo concreto: En el partido Athletic Club-Real Sociedad de La Liga 2019-20, el equipo local remató 15 veces y el visitante 2 veces. Por tanto, el TSR del Athletic se calcularía de la siguiente manera: 15 / (15+2) = 0.88

Al tratarse de un ratio, la medida está acotada entre 0 y 1. En consecuencia, el TSR de la Real Sociedad se puede calcular del siguiente modo: 1 - TSR(Athletic) = 0.12

A lo largo de una serie de partidos, el Total Shots Ratio se demostró como un mejor predictor del ratio de goles de un equipo que el propio ratio de goles de ese mismo equipo. En su momento, esta medida fue útil y un paso en la dirección correcta. Sin embargo, tiene varios problemas intrínsecos en su planteamiento que podemos reducir a: no todos los tiros son iguales. Para superar estos problemas surgieron los modelos de Goles Esperados (o xG como acrónimo del término original Expected Goals).

Goles esperados: un paso adelante

Como espectadores sabemos que un tiro desde dentro del área pequeña tiene mayor probabilidad de ser gol que uno desde 30 metros de distancia. ¿Pero cuánto más? Los modelos de Goles Esperados (xG) tratan de asignar un valor a esta diferencia.

¿Cómo se calcula el xG?

Los modelos de Goles Esperados emplean datos históricos para calcular la probabilidad de que un tiro dado sea gol en función de diferentes factores (distancia, ángulo, etc).

El primer modelo conocido fue desarrollado por Richard Pollard y Charles Reep en 1997 y el primer modelo público del que hay constancia es de Sarah Rudd en 2011. Sam Green, Michael Caley, Paul Riley, Constantinos Chappas o Colin Trainor desarrollaron también algunos de los primeros modelos públicos.

Aunque cada modelo tiene sus particularidades, históricamente estos son los factores más importantes para evaluar la calidad de un tiro:

  • Distancia a portería
  • Ángulo respecto a portería
  • Parte del cuerpo con la que se realiza el remate/tiro
  • Tipo de asistencia o acción previa (pase en profundidad, centro, balón parado, regate...)

Con esta información sobre un histórico suficientemente grande, el modelo atribuye a cada tiro un valor entre 0 y 1 que expresa la probabilidad de que termine en gol. Por ejemplo, observemos la siguiente imagen:

Un tiro desde este punto y con unas propiedades similares tiene un valor aproximado de 0.03 Goles Esperados (en adelante simplemente 0.03 xG). Esto significa que razonablemente podemos esperar que, de media, uno de cada 33 tiros sea gol en base a lo que ha sucedido con tiros similares anteriormente.

De estos modelos podemos aprender que:

  • Cuanto más cerca de la portería sea el tiro mayor es la probabilidad de marcar
  • Las zonas centrales son mejores que las zonas laterales del área (principalmente porque el ángulo es menor desde las zonas laterales)
  • Desde la misma distancia, los remates con los pies tienen mayor probabilidad de terminar en gol que los remates de cabeza
  • En general, los centros son más difíciles de convertir que los pases rasos, pases en profundidad, y los tiros tras regate

Para visualizar esto último:

Cabeza vs. Los Pies

Sin embargo, lo más importante no es tanto lo anterior, que hasta cierto punto es intuitivo, sino la capacidad de tener una manera sistemática de evaluar el valor de cada ocasión.

Por otro lado, de las investigaciones con modelos de xG aprendimos también que la posición y propiedades de un tiro son mucho más importantes que el jugador que lo realiza. Es cierto que con suficiente tamaño de muestra (años) o con modelos bayesianos podemos identificar algunos jugadores que destacan por su habilidad rematadora (Leo Messi) o por su falta de ella (Jesús Navas). Sin embargo, la inmensa mayoría de jugadores están alrededor del promedio. Así, en términos generales, lo que diferencia a los buenos delanteros no es la capacidad de convertir un mayor porcentaje de sus ocasiones sino la capacidad de generar más tiros desde zonas y situaciones valiosas.

A nivel colectivo, la correlación entre los Goles Esperados respecto al rendimiento futuro es mayor que el TSR o el propio rendimiento actual. Son útiles para evaluar el estilo y rendimiento tanto de equipos como de jugadores.

La variabilidad aleatoria en la conversión de ocasiones puede hacer que un equipo con un rendimiento subyacente notable parezca estar sufriendo una crisis (en palabras simples, mala suerte). Por contra, un equipo con una racha favorable de cara a gol puede situarse por encima de lo que su xG indica.

Este rendimiento subyacente, medido con un modelo de xG, unido a un concepto estadístico básico llamado regresión a la media nos permite hacer juicios y predicciones robustas sobre el rendimiento y potencial real de un equipo.

Un aspecto reseñable es que los diferentes modelos consideran una variedad de factores, sin embargo, no todos tienen en cuenta toda la información relevante para evaluar la calidad de los tiros. Es en este punto donde los datos y modelos de StatsBomb marcan una diferencia clave.

El xG de StatsBomb

En 2017, en StatsBomb decidimos que queríamos tener mejores datos para potenciar nuestros análisis y ayudar a los clubes a avanzar en el análisis. Estábamos seguros de que con más y mejor información podríamos mejorar los modelos existentes. Por ello, empezamos a recolectar nuestros propios datos.

Nuestros datos incluyen, entre otras cosas, los siguientes aspectos de manera explícita:

  • Posición del portero en cada remate
  • Colocación del portero: tumbado, movimiento, fijo
  • Posición de los defensores y de los atacantes en cada remate

Para cada tiro y remate, tenemos una imagen así:

Lo Celso Tiro Betis-Sevilla

Esta nueva perspectiva incorporando información adicional relativa a la situación del disparo, llamada Freeze Frame, ha mejorado mucho los resultados de nuestros modelos de Goles Esperados.

Pese a todo, somos conscientes de que no existe el modelo perfecto. No obstante, tenemos la certeza de que nuestros modelos son los más precisos y útiles que existen. La mejora constante es parte de nuestro ethos, por ello, hemos añadido la altura del balón en el momento del golpeo como factor adicional. Hemos visto que la adición de la coordenada z podría ha mejorado aún más la capacidad predictiva del modelo.

Ejemplo del xG: FC Barcelona 2017-18

¿Crees que puedes identificar un tiro convertido uno de cada dos veces? ¿Y uno convertido una de cada diez? Utilizando como ejemplo las ocasiones del Barcelona en la 17-18 vamos a intentar ilustrar diferentes conjuntos de tiros en función de su xG. Por simplicidad, excluimos los remates de cabeza.

Empezamos con el conjunto de tiros que terminan en gol menos de una vez de cada 20.

Barcelona La Liga 2017_2018

En segundo lugar, el conjunto de los tiros convertidos desde una vez de cada 20 hasta una de cada 10.

Barcelona La Liga 2017_2018(1)

No hay muchas sorpresas hasta ahora. Los tiros de larga distancia no suelen ser gol. Sin embargo, podemos ver que los tiros desde ángulos ajustados también son habitualmente ineficientes. Los jugadores tienden a sobreestimar la facilidad de marcar desde estas zonas cuando en realidad existen pocos especialistas en marcar desde estas posiciones. Sergio Agüero es el ejemplo más llamativo.

En la siguiente imagen, vemos los tiros que terminan en gol entre una de cada diez veces y una de cada cinco. Como es esperable, estos tiros están cada vez más cerca de la portería y desde zonas centrales del área.

Barcelona La Liga 2017_2018(2)

Cuando llegamos a los tiros que terminan en gol una de cada cuatro y una vez cada tres veces, las localizaciones se han centrado mucho y la mayoría están en el ancho del área pequeña.

Barcelona La Liga 2017_2018(3)

Finalmente, los tiros que son gol al menos una de cada dos veces. No es fácil crear ocasiones de este tipo. Incluso el Barcelona, el equipo con mayor producción ofensiva esa temporada (99 goles), sólo creó 17 ocasiones con un xG tan alto. Esto nos ayuda a poner en perspectiva la dificultad de crear ocasiones tan claras y a generar unas expectativas realistas del rendimiento ofensivo de los equipos.

Barcelona La Liga 2017_2018(4)

Aplicaciones prácticas de los Goles Esperados

La siguiente pregunta habitual es ¿qué podemos hacer con un modelo de Goles Esperados?

Dentro de un club, los datos pueden aportar un valor añadido tanto en el campo (por ejemplo, entrenamiento, táctica, acciones a balón parado) como fuera del mismo (por ejemplo, mercado de traspasos, negociación de contratos). Sin embargo, por la naturaleza y el estado actual del fútbol, los mayores margenes están todavía en las direcciones deportivas.

En lo relativo al mercado de traspasos, los modelos de xG tienen múltiples usos, desde hacer más eficientes los procesos de filtrado previo hasta permitir una valoración más precisa del rendimiento de los atacantes y predecir su rendimiento futuro.

Como ejemplo vamos a ver uno de los usos más prosaicos y al mismo tiempo más valiosos dentro de un departamento de scouting: Evitar decisiones erróneas identificando el rendimiento subyacente de los jugadores, más allá de producciones insostenibles o infladas por fluctuaciones aleatorias en la conversión.

La imagen inferior muestra el mapa de tiros de Enis Bardhi (Levante) en la temporada 2017-2018.

Enis Bardhi La Liga 2017_2018

Bardhi marcó nueve goles esa temporada, pero nuestro modelo de Goles Esperados (2.78 xG) sugería que esa conversión era insostenible y que se debió probablemente a fluctuaciones aleatorias en su rendimiento. Metió 5 de las 16 faltas directas que tuvo esa temporada.

En la siguiente temporada, la 2018-2019, Bardhi generó incluso un número mayor de xG, pero sólo marcó tres goles, dentro de lo esperado por el modelo. Como curiosidad, esta temporada marcó sólo una de las 19 faltas directas que tuvo.

Si algún equipo hubiera fichado a Bardhi en el verano de 2018 esperando que fuera un jugador de 9-10 goles por temporada, las expectativas del rendimiento hubieran sido irreales y probablemente hubieran lamentado el fichaje.

Esto no implica que nunca vayamos a querer fichar a ese jugador, pero con un modelo de xG podemos hacernos expectativas más realistas del rendimiento que podemos esperar de Bardhi en el futuro y por tanto juzgar de manera más objetiva la idoneidad de su fichaje.

Para ver un ejemplo totalmente opuesto, en la imagen inferior podemos observar el mapa de tiros de Karim Benzema en la temporada 2017-2018. Durante esa temporada la opinión pública fue unánimemente crítica respecto al rendimiento del francés y no faltaron quienes sugirieron que su tiempo en el Real Madrid debía tocar a su fin.

Mientras que está fuera de toda duda que su rendimiento goleador fue decepcionante, la pregunta que nos debemos hacer es cuánto de esa producción se debió a fluctuaciones aleatorias en la conversión - o en otras palabras, mala suerte - y cuánto a un posible declive en sus habilidades futbolísticas.

Nuestro modelo de Goles Esperados nos da una pista al respecto, Benzema generó 9 xG pero sin embargo sólo logro convertir 3 goles (excluyendo penalties). Por tanto, el modelo nos sugería que Benzema tuvo mala suerte de cara a puerta. El siguiente mapa de tiros de Benzema es de la temporada inmediatemente siguiente (Liga 2018-2019).

Como se aprecia a simple vista, el rendimiento de Benzema esta temporada no sólo fue remarcable en la producción de ocasiones valiosas (12 xG) sino que además fue excelente en cuanto a conversión, metiendo 18 goles (más 3 penaltis).

Además, hay un aspecto reseñable que quiero mencionar: En los mapas de tiros se muestra el número total de ocasiones y goles a lo largo de una temporada, pero sabemos que no es lo mismo jugar 1500 minutos que hacerlo 3000. Por tanto, para una comparativa más precisa debemos controlar el tiempo de juego. ¿Qué ocurre cuándo ajustamos los números de Benzema por cada 90 minutos?

La temporada 17-18 Karim Benzema disputó 2251 minutos en liga y generó 9.22 xG. Con un calculo sencillo obtenemos que sus Goles Esperados cada 90 minutos esa temporada fueron 0.37 xG90.

La siguiente temporada, Benzema disputó 3086 minutos, generando 12 xG. Con el cálculo anterior obtenemos que sus Goles Esperados cada 90 minutos fueron 0.35 xG90.

Por tanto, Benzema no sólo no estaba en declive la temporada anterior sino que su rendimiento subyacente (en lo que respecta a generar ocasiones) fue prácticamente el mismo y simplemente la conversión y el tiempo de juego hicieron que su producción final fuera diferente de un año a otro.

El xG en la evaluación del rendimiento de los equipos

Los Goles Esperados también son válidos para en evaluar de manera adecuada la calidad subyacente de los equipos de una liga tanto a nivel de toma de decisiones como por razones financieras.

Vamos a examinar el caso del Alavés en la 2018-19. La gráfica inferior compara la Diferencia de Goles (verde) y la Diferencia de Goles Esperados (morado) del equipo vasco durante esa temporada, empleando la media móvil de diez partidos. El área verde representa sobrerendimiento de Goles respecto a Goles Esperados.

El Alavés estuvo clasificado entre los cincos primeros durante casi media temporada pero sus números de xG nunca fueron tan buenos como para estar en esas posiciones. Cuando los resultados empezaron a reflejar su rendimiento subyacente, el equipo cayó hasta el puesto 11º en el que finalizó la temporada.

Deportivo Alavés La Liga Trendlines

¿Usar los xG en el entrenamiento?

En la dimensión del entrenamiento y el análisis táctico se puede utilizar el modelo para analizar decisiones tanto en ataque como en defensa. Por ejemplo, un entrenador podría visualizar la diferencia entre dos tiros y con esa información, ayudar a los jugadores a evaluar mejor las opciones disponibles. De nuevo, podemos ver la imagen que representa una ocasión con un valor de 0.03 xG:

Un tiro desde este lugar termina en gol una de cada 33 veces. En lugar de tirar, quizás puede ser mejor tratar de pasar en profundidad al desmarque del atacante:

Un pase exitoso similar en esta situación podría generar una oportunidad de remate con valor aproximado de 0.40 xG o más. Es decir, una ocasión 13 veces más valiosa que el tiro desde larga distancia. Incluso si el pase se completara sólo 1 de cada 10 veces, seguiría siendo una mejor opción.

P(pase) * P(gol) = 0.10 * 0.40 = 0.04 xG 

Obviamente, existen factores relevantes que influyen en ello como la habilidad, el entrenamiento (el modelo no da respuesta a la pregunta de cómo entrenarlo), o estratégicos - relativos a teoría de juegos.

Finalmente, los Goles Esperados tienen utilidad también para los amantes del Fantasy Football para identificar jugadores que están generando tiros valiosos pero que no están marcando muchos goles. Esto le puede pasar a cualquier jugador y no significa que exista un problema grave. Como hemos dicho antes, lo más importante es generar suficiente cantidad de tiros valiosos.

En lo que respecta a los medios, los Goles Esperados son una herramienta interesante para los espectadores que consumen análisis más profundos que simplemente con goles y resultados.

Conclusión

Los modelos de Goles Esperados no son perfectos y por definición no pretenden explicar ni todo el rendimiento ni en todo momento. Existen equipos que rinden por encima de los Goles Esperados durante periodos largos. A veces existe un jugador como Messi:

Lionel Messi La Liga Carrera

Sin embargo, es la métrica más predictiva y robusta del rendimiento de equipos y jugadores que tenemos hoy en día. Los modelos de Goles Esperados dan una imagen más precisa del proceso que los propios resultados y como tal son una herramienta útil para analizar el rendimiento de equipos, jugadores y entrenadores y tomar decisiones de manera más acertada.