xG

Mejorando los Goles Esperados xG

Por Dinesh Vatvani | junio 13, 2022 | Tiempo de lectura: 12 mins

xG

Introducción

Los Goles Esperados (xG) es uno de los conceptos más consolidados e instalados en el mundo de la analística aplicada al fútbol desde que apareció hace ya tres décadas. Dado que el fútbol es un juego comparativamente de baja puntuación, la cantidad de goles marcados por un equipo varía considerablemente según cómo se desarrollen algunas situaciones, así que la idea de determinar cuántos goles debería haber marcado un equipo o un jugador en promedio en una o más situaciones se ha convertido en una forma intuitiva de analizar el rendimiento tanto del equipo como de cualquier jugador. De esta manera, reducimos la variabilidad de las observaciones con respecto a simplemente observar los resultados de una pequeña selección de eventos.

Los analistas cuantitativos en el fútbol fueron conscientes desde el principio de las ventajas que supone utilizar xG en lugar de la observación de los goles para llevar a cabo sus análisis de rendimiento. Es bien conocido que el xG es, además, un factor más útil para medir el rendimiento a futuro tanto de un equipo como de un jugador. Es más, muchos de los grandes clubes han tomado en cuenta los valores xG a la hora de realizar sus fichajes, incluyendo aquí, por ejemplo, la decisión del Liverpool de hacerse con los derechos de jugadores como Mo Salah.

En los últimos tiempos, el concepto de xG ha salido del campo de los analistas de datos para convertirse en herramienta de uso habitual para expertos y seguidores del fútbol. Por ejemplo, hace apenas unas semanas vimos como Jamie Carragher evaluaba en Sky Sports el rendimiento de porteros al destacar cuales habían sido capaz de evitar más goles de los esperados. Proyecciones del resultado de ligas al final de la temporada, que, por cierto, se basan en los goles esperados, también se están incorporando al discurso popular, especialmente en torno a las posibilidades de ganar el título, prevenir descenso y terminar con un lugar en la Champions League en la siguiente temporada.

Con la aceptación del xG en el fútbol, tenemos que recordar que el valor xG de una oportunidad no es un valor universal. El xG es un concepto: es la estimación de un modelo que indica la cantidad de goles que se habrían marcado, en promedio, de una o más situaciones.

Es más importante que nunca recordar que no todos los valores de xG son iguales o tienen el mismo mérito. Los diferentes modelos pueden variar enormemente en la cantidad de datos que consideran o cómo se modelan estos datos. En otras palabras, la calidad de los modelos xG dependen mucho en la calidad de los datos que han sido utilizados y las decisiones de diseño y los supuestos que sustentan cada modelo. La mayoría de los desarrollos y actualizaciones del xG han sido incorporaciones de la mayor cantidad de datos contextuales disponibles. El desarrollo de la metodología con lo cual se entrenan estos modelos ha permanecido relativamente estancado.

En StatsBomb hemos decidido analizar las áreas en las que se pueden mejorar los modelos para aportar una innovación que permita ofrecer una nueva perspectiva a través de la cual poder comprender con más riqueza y eficacia el rendimiento tanto de los equipos como de los jugadores. Ha llegado el momento de enseñaros cómo nuestros modelos nuevos nos muestran el enorme potencial que todavía lleva este concepto tan básico.

Echemos por un momento la vista atrás para recordar lo que dijimos cuando lanzamos Shot Impact Height al mundo del fútbol:

“El modelo de Goles Esperados (xG) de StatsBomb siempre ha sido un poco diferente. Cuando StatsBomb Data se lanzó en 2018, el objetivo era acercar más los datos de fútbol a lo que realmente pasa en el campo de juego. Desde el principio, añadimos la posición del portero y de los defensores en cada tiro de cada liga que recogemos. Esta aparente pequeña aportación ha resultado en mejoras sustanciales en los valores de xG cuando hay mucha gente en el área de penalti y especialmente cuando el portero está fuera de posición.

Con los mejores valores de xG, acciones de presión, información sobre el pie con el que se realizan todos los pases y muchos otros factores diferenciales, StatsBomb Data se ha convertido en la opción preferida para equipos, federaciones y jugadores de todo el mundo. Nuestros datos son más precisos no solo en cuanto a dónde ocurren los eventos en el campo, y en qué orden, sino también en cuanto a cuándo ocurren. Esto significa que los datos de StatsBomb son más fáciles de integrar con los datos de tracking que los de cualquier otro proveedor de datos de evento en el mercado.”

Estos desarrollos aparentemente menores en los modelos xG han sido el resultado de enormes mejoras de los datos y nos permite seguir ofreciendo el mejor modelo de Goles Esperados del mercado. Los aficionados nos dan la razón: cada vez que alguien lanza un nuevo modelo de xG, incluso cuando se trata de empresas como Amazon o Microsoft, dejan bien claro en las redes sociales que nuestro modelo es más preciso y de mayor calidad.

Pusimos el listón bien alto... pero aun así sentimos que todavía podemos hacerlo mejor.

StatsBomb xG, actualización en el verano de 2022

Aunque hay actualizaciones constantes, algunas de las últimas mejoras han tenido un impacto notable en las métricas y evaluaciones de rendimiento de los porteros y, además, en la viabilidad del xG posterior al tiro, lo que ha permitido usarse como una medida muy eficaz para medir la habilidad rematadora de cada jugador:

El nuevo modelo tiene una mejor respuesta al posicionamiento del defensor y/o del portero
Fiabilidad mejorada en tiros lejanos y tiros desde situaciones particularmente inusuales
Ahora comprendemos mejor el posicionamiento del portero y su contribución a la supresión de los valores xG
Mejor comprensión de la habilidad rematadora por separar la calidad de la ocasión y la ejecución del tiro
Shot Velocity (velocidad del tiro) ha sido incorporado en nuestro modelo Post-Shot xG (xG posterior al tiro)
Todas estas actualizaciones estarán disponibles en StatsBomb Data - tanto en la versión Live (durante el partido) como en la versión original- a finales de este año, incluyendo todos nuestros datos históricos y todo lo que recopilemos en el futuro

Ahora, profundizaremos en el trabajo de modelado que nos ha permitido llegar a este punto, y mostraremos todo lo que hemos descubierto al evaluar el posicionamiento del portero y la habilidad rematadora.

Decisiones de diseño del modelo

Funciones continuas

“El nuevo modelo tiene una mejor respuesta al posicionamiento del bloqueador y/o del portero”

En este momento, nuestro xG tiene en cuenta la ubicación exacta de los jugadores sin balón a través del uso de nuestros Freeze Frames en el momento en el que se realiza el tiro:

El número de defensores situados en el triángulo que se forma entre el lanzador y los postes de la portería
La proporción del área de portería bloqueada por los defensores
La presencia de defensas entre la portería y el lanzador (la función open-goal)

Sin embargo, algunas de estas características son discretas. Por ejemplo, el número de defensores que bloquean la portería es un número entero y solo puede aumentar/disminuir en múltiplos de 1. O, la función open-goal, que contienen valores binarios que únicamente pueden ser Verdadero/Falso. Además, el hecho de que el cambio de estos valores solo se pueden realizar a través de pasos discretos tienen algunas implicaciones en el comportamiento del modelo en los casos en los que la situación del tiro representa un caso al límite de 2 valores.

Teniendo todo esto en cuenta, consideremos lo que sucede con modelos similares a nuestros modelos xG cuando desplazamos al portero a través de una línea que bloquea diferentes partes de la portería.

Observamos una gran discontinuidad en xG cuando el portero está en el borde del triángulo entre el lanzador y la portería, porque uno de los extremos de ese límite se nos presenta como una situación de portería abierta, o como si el portero no bloqueara la portería. Este escenario resulta problemático porque sabemos que, en realidad, un pequeño cambio en la posición del portero no tiene un impacto tan dramático en la probabilidad real de gol. Este fenómeno también se aplica a otras características - como la ubicación de los defensas - donde un pequeño desplazamiento de un defensor puede localizarlo dentro o fuera del triángulo y resulta un cambio radical en el número de obstáculos hacia el gol, lo que impacta radicalmente en el xG de la jugada.

Este problema se puede superar reemplazando las características no continuas donde esperamos que la relación entre esa característica y la probabilidad de gol sea fluida. Esto se aplica a cualquier función que dependa de la ubicación de los jugadores o se derive de ellos, como, por ejemplo, la función open-goal. Logramos esto al representar a los defensores como superficies 2D (distribuciones gaussianas 2D) en lugar de círculos de radio fijo.

Como resultado, ahora podemos medir bloqueos parciales de un tiro si el defensor está cerca del triángulo formado entre el tirador y los postes, es decir, que el defensor aún podría bloquear la portería, pero es menos probable que suceda si el defensor estuviera completamente dentro del triángulo lanzador-postes. Una consecuencia de esto es que la medida en que un jugador bloquea la portería se convierte en un número continuo que pasa gradualmente de 1 a 0 a medida que el defensor se aleja del triángulo formado por el tirador y la portería.

El resultado de esta variación es un modelo mucho más intuitivo, que se puede ver en la animación a continuación:

Se puede aplicar un proceso similar a la proyección de los defensores frente a la portería para obtener una característica de oclusión "suave" y gradual, que permitirá mejoras similares:

Cuando se entrenan modelos con estas funciones, la relación entre la función y el xG termina siendo considerablemente más fluida. Esto tiene la ventaja de ofrecer una representación más cercana de cómo cambia la probabilidad real de gol en respuesta a pequeños cambios en la ubicación del jugador.

Este aspecto resulta especialmente importante ya que la ubicación de los jugadores en nuestros Freeze Frames siempre tienen cierto margen de error. El margen de error en xG implícitas (que surgen de las ubicaciones de los jugadores) serán considerablemente menores para estos modelos nuevos como resultado de las relaciones más fluidas y las características continuas.

Relaciones de características monótonas

“Fiabilidad mejorada en tiros de larga distancia y tiros desde situaciones particularmente inusuales”

Nuestros modelos xG son modelos del tipo Gradient Boosted Trees. Están diseñados para aprender relaciones presentes en los datos, pero los modelos no tienen conocimiento de cuál es la relación real entre una característica y xG, o los artefactos de las mediciones estocásticas. Como resultado, los modelos a veces parecen un poco irregulares a medida que "aprenden" algunas de las relaciones causadas por el ruido en los datos junto con la relación verdadera entre las características y la probabilidad de gol.

Este problema se puede superar parcialmente con alguna regularización en el modelo, pero hay otros enfoques disponibles que nos permiten incluir algún conocimiento del mundo real sobre la relación entre las características y el objetivo. Sabemos que, en condiciones similares, la probabilidad de marcar un gol disminuirá a medida que se reduzca el ángulo visible de la portería (lo que implica un ángulo de tiro más cerrado o una mayor distancia de la portería). Podemos, entonces, agregar restricciones monótonas al modelo para que las relaciones aprendidas solo puedan ir en una única dirección explícitamente establecida.

El ejemplo a continuación muestra la relación entre el ángulo a la portería y la probabilidad de gol en tiros realizados con el pie (excluyendo lanzamientos a balón parado), comparando modelos con y sin restricciones monótonas para ilustrar el fenómeno, y cómo las restricciones monótonas dan como resultado relaciones más suaves y con comportamiento más intuitivo entre las características y xG.

En nuestros nuevos modelos xG, hemos reemplazado características con relaciones no-monótonicas con probabilidades de gol. Por ejemplo, la ubicación del tiro en la coordenada Y, donde a medida que nos movemos a lo ancho del campo (de y=0 a y=80), el xG aumenta inicialmente a medida que nos acercamos más al centro del campo desde el borde izquierdo, pero pasada la mitad del campo (y=40), los goles esperados empiezan a disminuir otra vez hasta que llegamos al borde derecho del campo. Por lo tanto, la relación general entre la coordenada Y y la tasa de gol esperada tiene forma de U.

Esta relación ha sido reemplazada por variantes que codifican una información similar, pero que tienen una relación monótona con la probabilidad de gol. Por ejemplo, la distancia y ángulo a la portería, lo que nos permite incluir restricciones monótonas ajustadas a todas las características donde la relación esperada es conocida y firmemente unidireccional. Esto significa que, nuestro xG tras el lanzamiento solo aumentaría si un tiro está situado más lejos del portero (siempre y cuando el lanzamiento vaya a puerta) y la probabilidad de gol solo aumentará a medida que aumenta la velocidad del tiro. Sí, nuestros nuevos modelos xG posteriores al tiro ahora incluyen la velocidad del tiro.

Los beneficios de entrenar varias variantes de modelos

“Ahora comprendemos mejor el posicionamiento del portero y su papel en la reducción de los valores xG”

Entrenar variantes de modelos similares agregando o eliminando cuidadosamente algunas características trae consigo numerosos beneficios.

Consideremos dos variantes de un modelo xG donde una de ellas incluye la posición del portero y la otra no. La versión sin la ubicación del portero dará como resultado una estimación de xG que asume implícitamente la posición promedio de un guardameta en tiros desde la ubicación y contexto de juego en el que se produce el lanzamiento porque el modelo no tiene forma de saber dónde está exactamente el portero. Una versión del modelo con características idénticas pero que añade la posición exacta del portero tendrá una estimación xG similar, pero se ajustará en función de la ubicación exacta del cancerbero.

Dicho esto, vale la pena señalar que, si bien existen beneficios claros al poder separar el valor agregado de los porteros con base a su posición, todavía existen algunas limitaciones. Este enfoque sólo valora la posición del portero en el momento exacto en el que se produce el tiro. Por lo tanto, cualquier decisión de posicionamiento correctiva del guardameta que obligue al lanzador a realizar el tiro desde una situación comparativamente desfavorable será infravalorada.

Un ejemplo claro de esto son las situaciones de 1 contra 1 en las que el portero corre hacia el oponente y fuerza al delantero a realizar un lanzamiento apresurado. Este enfoque no puede tener en cuenta el hecho de que el tiro probablemente se habría tomado desde una ubicación y un contexto mucho más amenazantes si no fuera por la actuación y movimiento del guardameta, que forzó al lanzador. Por lo tanto, no puede evaluar adecuadamente la relación entre maximizar la probabilidad de detener el tiro y forzar un tiro desde una situación menos favorable, y tenderá a sobreestimar ligeramente el valor posicional de los porteros que prefieren permanecer en la línea de gol y penalizar a los cancerberos que fuerzan a los delanteros a ejecutar lanzamientos apresurados. Un ejemplo claro podría ser el de Alisson, portero del Liverpool F.C. Afortunadamente, las situaciones 1v1 constituyen una proporción comparativamente pequeña de todos los tiros por lo que este enfoque aún puede brindarnos una buena estimación acerca de su rendimiento global y sus habilidades para detener tiros gracias al gran tamaño de muestras que se tienen en consideración.

“Entendemos mejor la habilidad de remate mediante el desacoplamiento de la calidad de la ocasión y la ejecución del lanzamiento”.

“Shot Velocity ahora forma parte de nuestro modelo Post-Shot xG”

De forma similar al concepto de comparar modelos xG con y sin información de ubicación del portero, si consideramos la diferencia en los valores xG entre un modelo que mide la calidad la ocasión (mide la probabilidad de marcar de una ocasión teniendo en cuenta la ubicación del portero y los defensores) y un modelo de ejecución del tiro (incluye todo lo anterior e incluso la ubicación y velocidad del tiro), obtenemos un ajuste (aumento o disminución) en la probabilidad de gol a partir de las características de ejecución del tiro: la ubicación y la velocidad del tiro. Gracias a esta nueva aportación, nuestro modelo puede evaluar la capacidad de ejecución de los jugadores independientemente del xG general generado por un jugador al disparar desde situaciones peligrosas.

Observaciones contrafactuales

Los modelos que entrenamos están diseñados para estimar la probabilidad de gol. Por lo general, pasamos los datos de los tiros observados al modelo para obtener las probabilidades de gol esperadas. Por supuesto, esto es muy útil, pero también puede ser informativo para generar las características de posibles tiros/situaciones que podrían haber resultado, pero no sucedieron.

Un ejemplo de esto es el posicionamiento del portero. Podemos mostrar el valor de posicionamiento del portero ante una hipotética situación en la que el portero se coloca en diferentes zonas del área para ver si realmente se encontraba en la mejor posición. Esto puede ser útil para medir la capacidad de posicionamiento del portero en términos de xG (cuánto varía el xG en función de la posición del portero), o en medidas de separación espacial (La distancia entre la posición observada del portero de la posición óptima). A continuación se muestran algunos ejemplos de cómo el posicionamiento del portero afecta al xG.

Un segundo ejemplo es la ejecución de tiros. Podemos estimar la probabilidad de gol en función de si el tiro fue ejecutado en diferentes zonas frente a la portería. De esta manera podemos saber si la posición del lanzamiento fue la más óptima o a cuánta distancia se encontró el lanzador con respecto a la posición ideal. En algunos casos esta observación puede resultar algo obvia, ya que disparar al ángulo más alejado del portero es el tiro óptimo, pero deja de ser tan evidente si hay defensores que bloquean la trayectoria del tiro.

La ejecución del tiro y su correspondiente xG depende también, por supuesto, de la velocidad del lanzamiento.

Conclusión

El concepto de xG es un viejo conocido en el mundo de la analítica aplicada al fútbol y, sin embargo, todavía hay muchas mejoras que se pueden hacer para que estos modelos se comporten de manera más intuitiva, más resistentes a pequeños cambios en la ubicación de los jugadores y desbloquear más información sobre las fortalezas y debilidades de los jugadores y equipos ante situaciones de tiro.

En StatsBomb lanzaremos un nuevo modelo de xG en los próximos meses con todas las características que hemos mencionado a lo largo de este artículo.

• El nuevo modelo tiene una respuesta mejorada al posicionamiento de los defensas y/o del portero
• Fiabilidad mejorada en tiros lejanos y lanzamientos desde situaciones menos habituales
• Ahora comprendemos mejor el posicionamiento del portero y su impacto en el xG.
• Se ha mejorado la comprensión de la habilidad rematadora mediante el desacoplamiento de la calidad de la ocasión y la ejecución del tiro.
• Shot Velocity ha sido incorporado a nuestro Post-Shot xG model

Cada lanzamiento ahora incluye más factores relacionados con el xG:

• Calidad del tiro (xG)
• Ejecución del tiro (Post-Shot xG desde la perspectiva del lanzador)
• Dificultad de la parada (Post-Shot xG desde la perspectiva del portero)
• Ajuste del xG en función de la ejecución de tiro
• Ajuste de xG con base a la posición del portero
• Ajuste de xG en función de las paradas del portero
• Mapas xG de localización de los lanzamientos
• Mapas de posicionamiento del portero xG

Por Dinesh Vatvani | junio 13, 2022

xG

Mejorando los Goles Esperados xG

Compartir este artículo

xG

Compartir este artículo

Introducción

StatsBomb xG, actualización en el verano de 2022

Decisiones de diseño del modelo

Relaciones de características monótonas

Los beneficios de entrenar varias variantes de modelos

Observaciones contrafactuales

Conclusión