Este artículo está escrito por el equipo de CV de StatsBomb. Vamos a abordar los detalles técnicos del algoritmo de calibración de cámara que hemos desarrollado para recoger la ubicación de jugadores directamente a partir de las imágenes de televisión.
Introducción
La calibración de la cámara es una de las etapas fundamentales en numerosas aplicaciones de visión por ordenador dentro del campo del análisis cuantitativo en el deporte. Mediante la determinación de la posición y orientación de la cámara (en adelante, pose de la cámara), es posible localizar de manera precisa la ubicación de jugadores y/o eventos en cualquier instante del partido. Además, aumentar la precisión de dicha calibración implica indirectamente un incremento adicional en la precisión a la hora de calcular métricas avanzadas a partir de los datos recogidos.
Una de las aplicaciones donde la calibración de la cámara juega un papel fundamental es el seguimiento espacio-temporal de los jugadores, también conocido como tracking. Para tratar de resolver este problema, diversas empresas han optado por la utilización de un sistema multi-cámara que permite grabar simultáneamente todas las zonas del campo desde distintas localizaciones. Gracias a la redundancia ofrecida por la disponibilidad de varias cámaras, este enfoque proporciona una gran precisión espacial, pero se ve afectado por varios inconvenientes inherentes al modelo. En primer lugar, el despliegue y mantenimiento de dicho sistema conlleva un coste muy elevado. En segundo lugar, y probablemente más importante, la aplicabilidad de esta solución se ve limitada a estadios donde dicho sistema haya sido instalado, requiriendo por tanto de acuerdos específicos con los clubes o ligas.
Una alternativa más escalable consiste en la recogida de datos directamente a partir de las imágenes de televisión, cuya accesibilidad es mucho mayor. No obstante, desde el punto de vista técnico, la complejidad se incrementa notablemente debido a varios factores. Los operadores de televisión disponen de múltiples cámaras distribuidas en diferentes posiciones, pero la realización sólo ofrece la señal proveniente de una de ellas, produciéndose cambios de cámara a criterio del realizador. Asimismo, las cámaras utilizadas no son cámaras estáticas, sino que varían su posición, orientación y zoom, lo que explica la necesidad de llevar a cabo una calibración para determinar qué parte del terreno de juego estamos observando.
A lo largo del presente documento explicaremos cómo StatsBomb está enfocando el problema de la calibración de la cámara a partir de las imágenes de televisión. Describiremos la metodología que hemos seguido e ilustraremos gráficamente los resultados que hemos obtenido con ella.
Preparación de los datos
Nuestro propósito es automatizar completamente el proceso de calibración de la cámara. Para tal fin, hemos desarrollado un sistema de adquisición de datos que nos permite recopilar imágenes tomadas con distintas poses de cámara acompañadas de la calibración correcta para cada una de ellas. El objetivo es adquirir un espectro de poses de cámara tan amplio como sea posible de manera que podamos entrenar nuestros modelos para automatizar el proceso de calibración. Este proceso se ha desarrollado en las etapas descritas a continuación:
(1). Mechanical Turk
De cara a adquirir los citados datos para entrenar nuestros modelos, hemos creado una plataforma (denominada Mechanical Turk) que permite a nuestro departamento de recogida delinear manualmente las líneas de cal. Habitualmente, la calibración de la cámara se basa en la disposición de puntos emparejados entre las imágenes. Por ejemplo, el punto de penalti o o las esquinas del área podrían ser puntos fácilmente reconocibles. Sin embargo, en función de la orientación de la cámara, es posible que no haya suficientes puntos presentes en la imagen para recuperar la pose de la cámara. Para superar esta limitación, hemos desarrollado un algoritmo que es capaz de calibrar la cámara utilizando todas las formas geométricas a nuestra disposición: puntos, líneas y círculos. De esta manera, nuestra plataforma permite etiquetar manualmente todas las líneas de cal presentes en la imagen.
Figure 1. Ejemplo de cuatro tomas de televisión distintas cubriendo diferentes partes del terreno de juego. La información recogida por nuestro equipo de recogida (líneas, puntos y círculos) se muestra en color rojo. Pueden apreciarse mínimas imprecisiones que serán corregidas en la siguiente etapa de nuestro procesado, garantizando así la mayor precisión en nuestros datos.
(2). Estimación de la homografía a partir de datos manuales
En geometría proyectiva, se define una homografía como una transformación entre dos imágenes de la misma superficie [1]. Asumiendo que las cámaras utilizadas para la retransmisión por televisión se ajustan al modelo de cámara estenopeica, determinar la pose de la cámara es equivalente a obtener la homografía entre el terreno de juego observado en la toma y una plantilla del mismo con las dimensiones correctas. Matemáticamente, la homografía queda descrita por una matriz 3x3:
Afortunadamente, aunque esta matriz consta de 9 componentes, queda completamente caracterizada por 8 grados de libertad, que pueden reducirse incluso más bajo ciertas asunciones. Como ya hemos mencionado antes, se ha desarrollado un algoritmo para determinar la homografía a partir de los datos recogidos durante la etapa de adquisición, haciendo uso así de toda la información geométrica disponible: líneas, puntos y círculos.
Figure 2. Ejemplo de cuatro tomas de televisión distintas cubriendo diferentes partes del terreno de juego. La proyección de la plantilla del campo utilizando la homografía estimada se muestra en rojo. Conviene remarcar que aunque estas imágenes puedan parecer idénticas a las de la Figura 1, las aquí presentadas han sido obtenidas a partir de un postprocesado que es capaz de determinar la posición y orientación de la cámara con respecto al terreno de juego. En cambio, las observadas en la anterior figura muestran simplemente las líneas delineadas por nuestros recolectores. Asimismo, cabe resaltar que las imperfecciones antes mencionadas han sido eliminadas tras esta etapa.
Calibración de la Cámara
A partir de los datos adquiridos, hemos entrenado diversos modelos mediante aprendizaje supervisado. De esta forma se ha automatizado completamente el proceso de calibración de la cámara a partir de una determinada imagen. Nuestros modelos se cimentan sobre la arquitectura ResNet (2), una de las más empleadas en el estado del arte para el reconocimiento de objetos en imágenes. Una vez definida nuestra arquitectura de red, los parámetros que la caracterizan han sido estimados mediante la retropropagación de los gradientes a través del algoritmo de optimización Adam (3).
Figure 4. Ilustración del algoritmo de calibración de cámara desarrollado en StatsBomb. Se muestra en rojo la plantilla del campo proyectada utilizando la pose de cámara estimada a partir de la imagen.
Conclusiones
Hasta ahora nuestro modelo ha sido desplegado únicamente para disparos a puerta. Nos hemos centrado en estas acciones con el objetivo de incrementar la calidad de los datos utilizados en nuestro modelo de goles esperados (xG). Mediante una localización más precisa del rematador y el portero, así como de los defensores y atacantes, podemos afirmar que seguimos disponiendo de los mejores datos del sector. A comienzos de la próxima temporada habremos desarrollado un modelo para calibrar de manera completamente automática la pose de la cámara para cualquier tipo de evento. Cabe destacar que este avance permitiría disponer de datos espaciales para todo tipo de eventos, así como para tracking. Más importante aún, en StatsBomb estamos a disposición de las necesidades de nuestros clientes, ¡así que toda sugerencia o petición será bienvenida!
Referencias
(1) Hartley and Zisserman, “Multiple View Geometry in Computer Vision”, 2003, Cambridge.
(2) He et. al., “Deep residual learning for image recognition”, 2015, arXiv: https://arxiv.org/abs/1512.03385.
(3) Kingma et. al., “Adam: A Method for stochastic optimization”, 2017, arXiv: https://arxiv.org/pdf/1412.6980.pdf.
Las acciones a balón parado ocupan un lugar diferente en fútbol. Constituyen una parte considerable del juego, pero históricamente han sido subestimadas por parte de los espectadores y en ocasiones incluso por los profesionales del deporte.
Tener una comprensión de los conceptos básicos puede aportar claridad a lo que a menudo parece una maraña de jugadores en movimiento y ayudar a generar nuevas ideas para explotar aún más esta parte del juego.
Desde el punto de vista del equipo atacante, el primer paso es identificar la estructura y configuración defensiva del equipo rival. A partir de ahí preguntarse qué se puede hacer para explotarlo en nuestro beneficio. Una parte fundamental de esto es la orientación de los defensores. En función del tipo de marcaje defensivo, ya sea individual, zonal o mixto, los defensores están obligados a controlar dos referencias al mismo tiempo: el balón y el movimiento de los jugadores atacantes. Esta característica intrínseca de estas situaciones puede ser aprovechada por el equipo atacante.
Por ejemplo, vamos a echar un vistazo a la imagen inferior:
Los defensas (en este caso el Hoffenheim, de azul) están agrupados alrededor y dentro del área pequeña. El equipo atacante (Friburgo, de rojo) tiene dos jugadores colocados detrás de ellos o fuera de su campo de visión. Los defensores pueden tratar de mantener la referencia de los atacantes mirando de reojo constantemente, pero en algún momento tendrán que girarse para mirar desplazamiento del balón, y en ese momento perderán momentáneamente la referencia de lo que está pasando a sus alrededores.
El jugador en la corta (#14), no tiene capacidad de percibir el movimiento del jugador que se anticipa a él. Este tipo de errores son muy comunes. Parece un cabezazo fácil hasta que no lo es.
Para muchos comentaristas y espectadores el marcaje zonal es un sospechoso habitual. Es cuestionado cuando sale mal, mientras que rara vez se hace lo mismo con el marcaje individual - que también tiene problemas inherentes.
Sin embargo, lo cierto es que los sistemas de marcaje zonal son igual de falibles si se atacan correctamente, dificultando la capacidad de los defensas de seguimiento y concentración.
Los equipos de Ole Gunnar Solskjær han usado algunos planteamientos bastante extremos, tanto en el Molde como en el Manchester United.
En parte, esta es una razón por la que se podrían preferir los saques de esquina al primer palo. Te dan la oportunidad de atacar el espacio delante de los defensores desde su punto ciego. Los saques de esquina al segundo palo también son útiles pero tienen defectos más obvios. Atacar la espalda de la defensa es teóricamente correcto, pero el tiempo extra que el balón se desplaza en el aire da a los defensores (y al portero) más tiempo para reaccionar a su vuelo y moverse para bloquear o interceptar el centro. Los centros al segundo palo funcionan mejor cuando existen desequilibrios físicos o distracciones - volveremos a este punto más adelante.
Todas las ideas relativas a la orientación de los defensores se aplican igualmente a las faltas, en las que existe mas posibilidad de sacar provecho de los envíos segundo palo.
Vamos a ver un ejemplo ingenioso en el vídeo inferior: Hay tres atacantes colocados en el lado más alejado de la línea defensiva, generando una superioridad numérica y creando dudas a los defensores. Uno de los atacantes hace un delicioso desmarque anticipándose al defensor directo y rematando el centro de cabeza.
Estos principios también se aplican a los saques de banda.
Todo esto es una muestra de cómo desestabilizar los sistemas de marcaje zonal. ¿Cómo podemos hacer lo mismo con el marcaje individual? Aquí es donde tenemos la oportunidad de inyectar un poco de picante en las rutinas de balón parado, utilizando la presencia física de los jugadores para impedir a los defensores llevar a cabo una defensa eficaz
La versión más simple de esto es un pick (bloqueo) o screen (pantalla), concepto que se origina en el baloncesto. La idea es que un jugador se queda quieto para crear un obstáculo que el defensor tiene que evitar.
Se utilizan para liberar a los compañeros creando espacio entre un atacante y el defensor. Se utilizan en todo tipo de rutinas inteligentes y estéticamente agradables. Por ejemplo, atentos al lado inferior de la cancha en este ejemplo:
Mientras la atención de todos se desvía hacia el jugador con el balón, un tirador se escabulle a la esquina y su compañero bloquea a su marcador. ¡Boom! Un tiro abierto de tres puntos. Bonito y simple.
Los picks pueden ofrecer la misma utilidad en el fútbol. Pese a estar relativamente desaprobados por los árbitros de figuran entre las otras mil cosas que no se penalizan frecuentemente. Durante el juego no existen muchas oportunidades de usarlos, ya que el campo es demasiado grande. No obstante, en los balones parados, dentro de los espacios reducidos ofrecidos por los saques de esquina, los tiros libres y los saques de banda, pueden ser letales.
Vamos a ver este ejemplo del Athletic Club contra el Napoli en Champions League.
Gurpegi (#18) capitán del conjunto vasco bloquea en el centro del área pequeña a dos jugadores, permitiendo a Aritz Aduriz (#20) rematar en el segundo palo completamente solo.
En el siguiente ejemplo el defensor #22 es bloqueado en el punto de penalti impidiendo su marcaje al jugador que prolonga el envío.
En este ejemplo el belga Marouane Fellaini es bloqueado en el área pequeña:
Esta idea tiene múltiples modos de uso en estas acciones. Generalmente se aconseja mantener las rutinas simples. Cuantas más acciones se le pidan a un jugador como parte de una rutina compleja, más oportunidades habrá de que no se ejecute de manera exitosa y coordinada.
Este tipo de jugadas son perfectas para crear confusión. En el siguiente ejemplo, el Thun (en rojo y blanco) inicialmente juega corto y no está claro cuál es su plan. Todos los defensores están orientados hacia el balón. El futuro rematador está posicionado detrás de ellos en el otro lado de la área, en el lado ciego. El único defensor que ve lo que viene es su marcador, y es víctima de un gran golpe que le impide intervenir (hay que señalar que este golpe, posiblemente ilegal, se hace fuera de la vista del árbitro). Un defensor secundario en la parte superior del área pequeña también es bloqueado.
Aunque los picks son efectivos en fútbol, el área es más grande que la mitad de una cancha de baloncesto. Por lo tanto, encontrar maneras de reducir el espacio y hacer más difícil que los defensores se muevan es de gran ayuda.
Los picks presentan verdaderos problemas para los defensores. ¿Pasas por encima del obstáculo? ¿Por debajo? ¿Hay otra opción? En el baloncesto existe un esquema defensivo que se llama switching.
Esto es algo que puede haber visto en fútbol - especialmente si eres seguidor de los equipos de Marcelo Bielsa. Es simplemente cuando un defensor pasa el hombre que está marcando a un compañero. Están intercambiando (switching) las responsabilidades defensivas entre ellos.
El siguiente vídeo es un ejemplo en fútbol. El Sparta Praga (granate y negro) ejecuta un switch en la esquina inferior derecha del área.
Esta manera de defender tiene algunas ventajas, pero también desventajas obvias.
Una de ellas son los desequilibrios físicos. Si un jugador alto está siendo defendido por un rival de similar tamaño, al hacer un pick para un compañero más pequeño, si los defensores ejecutan un switch, tienes un jugador lento y torpe emparejado con uno más pequeño que le puede . Y, por supuesto, el defensor del jugador más pequeño está ahora emparejado con alguien más alto y más fuerte que él. Ahora existe un desequilibrio físico que puede aprovechar el equipo atacante. Aplicando los mismos principios que en el baloncesto, esto también se puede lograr en el fútbol.
En el primer clip de este ejemplo, una variedad de picks y movimientos obligan a un defensor más pequeño, con brazos más cortos, a marcar un jugador que es capaz de agarrar el balón desde fuera de su alcance y conseguir una bandeja relativamente sencilla. En el segundo video (Ajax) un defensor más pequeño hace un switch a Matthijs de Ligt (#4) que supera a su nuevo marcador con facilidad. El Ajax utilizó con mucho éxito esta rutina durante el tiempo que De Ligt estuvo allí.
El otro dilema defensivo que esto provoca es la falta de comunicación. Los defensores tienen que estar concentrados para contrarrestar los picks. Si se descuidan por un segundo, o no se comunican lo suficientemente bien entre ellos, es probable que no lo ejecuten de manera coordinada. Ni siquiera se necesitan los picks para lograr esto. Cualquier contra-movimiento de los jugadores atacantes en espacios reducidos pone el mismo tipo de presión en la defensa.
Aquí hay un par de nuevos ejemplos con anotaciones en inglés:
Una diferencia entre el fútbol y el baloncesto es que en nuestro deporte podemos agrupar a muchos jugadores en un espacio reducido, y definir una rutina para que hagan sus desmarques desde ese racimo de jugadores agrupado. A esto lo llamamos packs. En esta situación los defensores tienen que comunicarse bien entre sí, ya que no pueden acercarse a este enjambre de atacantes antes de que salgan disparados en todas las direcciones.
El Liverpool hizo un gran uso de estos packs en un partido contra el Newcastle la temporada pasada, desbaratando completamente la defensa del equipo local y liberando a Virgil van Dijk.
El primo-hermano del pack es el stack. En vez de agruparse en una bola de demolición de una sola pieza, los atacantes se colocan en una línea recta. Esto tiene efectos disruptivos similares.
La configuración de defensa ideal es un híbrido entre el marcaje individual y el marcaje zonal. El marcaje individual puede desacelerar a los atacantes e impedirles que lleguen con la inercia hacia los defensas que están marcandoen zona. Pero los packs y los stacks, y una combinación de todos los conceptos que hemos expuesto aquí pueden provocar desorden en todos los esquemas defensivos cuando son realizados correctamente.
Conclusión
Existen muchas otras áreas para explorar, incluyendo los saques de banda, los tiros libres (directos e indirectos) y así sucesivamente. También existen factores absolutamente relevantes que no hemos mencionado en esta introducción como son la habilidad de los jugadores en los envíos y en las acciones de remate o desmarque.
¿Quieres aprender cómo organizar y utilizar datos de fútbol? Aquí está una introducción de cómo trabajar con los datos gratuitos de Hudl Statsbomb en R.
En Hudl Statsbomb tenemos el compromiso de liberar parte de nuestros datos para fomentar activamente la investigación y análisis original a todos los niveles. Para tal fin, hemos puesto a disposición del público nuestros datos de varias competiciones.
Esperamos que esta introducción os sirva para iniciaros en el uso de datos para analizar el fútbol.
Los datos accesibles de manera gratuita cuentan con las mismas especificaciones que hacen a nuestros datos ser los líderes de la industria e incluyen un nivel de detalle y precisión mayor que en cualquier otro proveedor de datos.
Nuestro feed de datos incluye, entre otros, los siguientes aspectos:
- La posición de los jugadores atacantes y defensores en todas las situaciones de remate incluyendo la posición y las acciones del portero durante el desarrollo de la misma.
- Información detallada sobre todos los jugadores que ejercen presión sobre el jugador con balón durante la fase defensiva – incluyendo la duración de la presión, la dirección y las acciones subsiguientes.
- Pie con el que realiza los pases cada jugador, altura del pase, y muchas otras variables que otorgan mayor detalle a nuestros datos.
Hemos publicado una gran variedad de conjuntos de datos gratuitos, incluyendo la carrera de liga completa de Lionel Messi en el Barcelona, el PSG y el Inter de Miami, las últimas Copas Mundiales y Eurocopas tanto masculinas como femeninas o la temporada invicta del Bayer Leverkusen de Xabi Alonso.
Para los que prefieren trabajar en Python, también tenemos una guía para el uso de nuestros datos en Python.
¿Qué es R y por qué usarlo?
R es un lenguaje de programación especialmente útil para el manejo de datasets estadistícas. En el ámbito que nos ocupa (estadística avanzada en fútbol) nos permite procesar datasets para diferentes fines tales como la creación de métricas así como visualizaciones de los mismos.
R se puede descargar de manera gratuita en este enlace: https://cran.r-project.org/mirrors.html
En Hudl Statsbomb trabajamos regularmente con R en nuestro día a día, particularmente en el departamento de análisis. Empezar a trabajar con hojas de cálculo puede ser una posibilidad válida al comienzo, pero a medida que las dataset son más grandes se vuelven más difíciles de manejar haciendo casi imposible realizar un análisis detallado de los mismos sin manejar un lenguaje de programación.
Una vez superada la curva de aprendizaje, R es ideal para trabajar y analizar los datos de manera eficiente y sencilla.
Antes de empezar, es recomendable tener instalado la versión más actualizada de R, al menos la versión 3.6.2.
RStudio
La versión básica de R no es lo más visual del mundo. Esto ha llevado a la creación de varios entornos de desarrollo integrados (IDEs). Estos wrappers son softwares desarrollados a partir de la versión inicial y tratan de hacer la mayoría de tareas dentro de R más sencillas y manejables para el usuario.
El más popular de estos es RStudio: https://www.rstudio.com/products/rstudio/
Es recomendable instalar RStudio u otro IDE similar para que el proceso de trabajo con los datos de Hudl Statsbomb más simple y limpio.
Abrir un Proyecto Nuevo en R
Esto es lo que verá el usuario al cargar por primera vez RStudio (sin las anotaciones).
En caso de no tener clara la función de cada opción o sección de RStudio es recomendable echar un vistazo a alguna de las hojas de consejos y tutoriales relativos en:
Es muy fácil encontrar una gran cantidad de recursos con explicaciones y respuestas detalladas a cualquier pregunta que pueda surgir respecto a R.
¿Qué es un Paquete de R?
Los paquetes son conjuntos de funciones que simplifican tareas. Se pueden descargar fácilmente. Para instalar un paquete en R simplemente hay que ejecutar install.packages("NombreDelPaquete").
Los paquetes que utilizaremos y que será necesario tener instalados son los siguientes:
- ‘tidyverse’: tidyverse contiene dentro de sí un conjunto paquetes útiles para manipular datos (por ejemplo dplyr y magrittr). install.packages("tidyverse")
- ‘devtools’: La mayoría de paquetes se encuentran en CRAN. Sin embargo, también se pueden encontrar muchos paquete útiles en Github. Devtools permite descargar los paquetes directamente desde Github. install.packages("devtools")
- ‘ggplot2’: El paquete más popular para llevar a cabo la visualización de datos en R
- ‘StatsbombR’: El paquete propio de Hudl Statsbomb para analizar nuestros datos
Una vez que un paquete está instalado se puede cargar ejecutando library(NombreDelPaquete). Deben importarse antes del comienzo de una sesión.
¿Qué es ‘StatsbombR’?
StatsbombR es un paquete dedicado a hacer uso de los datos de Hudl Statsbomb de manera más sencilla e intuitiva. Se puede descargar en este enlace de Github donde se incluye además información sobre su uso: https://github.com/statsbomb/StatsbombR
Para instalar el paquete en R es necesario instalar primero un par de paquetes diferentes ejecutando las siguientes líneas:
install.packages("devtools")
install.packages("remotes")
remotes::install_version("SDMTools", "1.1-221")
Para instalar StatsbombR ejecuta a continuación:
devtools::install_github("statsbomb/StatsBombR")
Información Adicional Sobre los Paquetes
Para encontrar más información sobre las diferentes funciones dentro de un paquete sólo hay que hacer click en el nombre del paquete como se ve en la imagen.
Esto nos mostrará la información del paquete incluyendo los detalles de sus funciones.
Importar los datos de Hudl Statsbomb
Para manejar nuestros datos en R es necesario familiarizarse antes con varias funciones importantes dentro de StatsbombR.
- FreeCompetitions() – Muestra todas las competiciones disponibles en los datos gratuitos. Almacenar el output de esta o cualquier otra función en lugar de tenerlo en la consola de R es posible hacerlo ejecutando lo siguiente:
- Comp <- FreeCompetitions(). Así, al ejecutar Comp (o cualquier palabra utilizada para tal caso) dará el output de FreeCompetitions()
- Matches <- FreeMatches(Comp) - Muestra todos los partidos disponibles dentro de las competiciones seleccionadas.
- StatsBombData <- free_allevents(MatchesDF = Matches, Parallel = T) – Importar todos los datos de evento para los partidos seleccionados.
A continuación vamos a ver un ejemplo de cómo importar datos en R. Primero, abrimos un nuevo script para tener el código accesible de la siguiente manera File -> New File -> R Script. Se puede guardar en cualquier momento.
library(tidyverse)
library(StatsBombR)#1
Comp <- FreeCompetitions() %>%
filter(competition_id==11 & season_name=="2005/2006")#2
Matches <- FreeMatches(Comp)#3
StatsBombData <- free_allevents(MatchesDF = Matches, Parallel = T)#4
StatsBombData = allclean(StatsBombData)#5
1: tidyverse importa varios paquetes diferentes. Los más importantes para esta tarea son dplyr y magrittr. StatsbombR importa StatsbombR.
2: Importa las competiciones disponibles para el usuario y se filtran utilizando la función ‘filter’ de dplyr para obtener la temporada 05/06 de La Liga en este caso.
3: Importa todos los partidos de la competición seleccionada.
4: En este punto se ha creado una ‘dataframe’ (esencialmente una tabla u hoja de datos) llamada StatsBombData (o el nombre elegido para tal caso) con todos los datos de evento gratuitos para la temporada 05/06 de la Liga.
5: Extrae toda la información relevante previamente descrita.
Trabajar con los datos
En nuestro Github (el mismo lugar donde se pueden encontrar los datos) se pueden encontrar documentos adicionales con las especificaciones de Hudl Statsbomb Data. Estos están disponibles para ver o descargar y contienen explicaciones a las dudas que puedan surgir sobre los distintos tipos de eventos o cuestiones similares.
Los documentos incluyen:
- Open Data Competitions v2.0.0.pdf– Cubre los contenidos en la información de las competiciones ( FreeCompetitions() ).
- Open Data Matches v3.0.0.pdf – Describe la información de partido para descargar ( FreeMatches() ).
- Open Data Lineups v2.0.0.pdf – Describe la estructura de la información de alineación ( getlineupsFree() ).
- Open Data Events v4.0.0.pdf – Incluye los significados de los nombres en las columnas dentro de los datos de evento.
- Statsbomb Event Data Specification v1.1.pdf – Descripción detallada de todos los eventos en los datos.
Ejemplos de uso de los datos
Una vez que tenemos disponible el archivo StatsBombData vamos a ver varios modos en los que se puede utilizar al mismo tiempo que nos familiarizamos con R. Los ejemplos irán incrementando en grado de dificultad.
Ejemplo 1: Tiros y Goles
Un punto de partida simple pero fundamental. Veremos cómo extraer los números de tiros y goles de cada equipo, primero los totales y luego los de cada partido.
Primero, vamos a importar los datos para la temporada 2018-19 de la FA Women’s Super League. Utilizamos de nuevo el código citado arriba, pero esta vez la competition_id será 42 y la season_id será "2018/2019".
Después, escribimos:
shots_goals = StatsBombData %>%
group_by(team.name) %>% #1
summarise(shots = sum(type.name=="Shot", na.rm = TRUE),
goals = sum(shot.outcome.name=="Goal", na.rm = TRUE)) #2
Vamos a desgranarlo paso a paso:
1: Este código agrupa los datos por equipo, de tal forma que cualquier operación que realicemos en ellos será ejecutada por cada equipo. I.e. extraerá los tiros y goles para cada equipo de manera individual.
2: Summarise toma cualquier operación ejecutada y genera una tabla nueva y separada con ello. La mayoría de usos de summarise suelen ser después de group_by.
shots = sum(type.name=="Shot", na.rm = TRUE) crea una nueva columna llamada ‘shots’ que suma todas las filas bajo la columna ‘type.name’ que contienen la palabra ‘Shot’.
na.rm = TRUE pide ignorar cualquier NA dentro de esa columna.
shot.outcome.name=="Goal", na.rm = TRUE) hace lo mismo con los goles.
En este punto deberíamos tener una tabla como esta.
Para realizar el mismo cálculo por partido en lugar de los totales solo tenemos que cambiarlo de la siguiente manera:
shots_goals = StatsBombData %>%
group_by(team.name) %>%
summarise(shots = sum(type.name=="Shot", na.rm = TRUE)/n_distinct(match_id), goals = sum(shot.outcome.name=="Goal", na.rm = TRUE)/n_distinct(match_id))
Añadir ‘/n_distinct(match_id)’ implica que estamos dividiendo el número de tiros/goles entre el número de partidos para cada equipo.
Ejemplo 2: Crear Gráficos de los Tiros
Una vez que tenemos los datos de tiros y goles ¿cómo podemos crear un gráfico a partir de ellos?
library(ggplot2)
ggplot(data = shots_goals, aes(x = reorder(team.name, shots), y = shots)) #1 +
geom_bar(stat = "identity", width = 0.5) #2 +
labs(y="Shots") #3 +
theme(axis.title.y = element_blank()) #4 +
scale_y_continuous( expand = c(0,0)) #5 +
coord_flip() #6
1: Aquí estamos diciendo a ggplot qué datos estamos utilizando y qué queremos en los ejes x/y del gráfico. ‘Reorder’ ordena los nombres de los equipos en función de los tiros.
2: Pide a ggplot formatearlo como un gráfico de barras.
3 : Cambia el nombre del eje de tiros.
4 : Elimina el título del eje.
5 : Aquí podemos reducir el espacio entre las barras y el límite del gráfico.
6 : Rota el gráfico completo colocando las barras en sentido horizontal.
Lo anterior debería generar un gráfico como este.
El diseño obtenido es básico y diáfano. Puede ser modificado de diferentes maneras para conseguir un visual más atractivo.
Cualquier elemento de un gráfico ggplot desde el texto a los datos en sí puede ser modificado de numerosas maneras abriendo la puerta a la creatividad del usuario.
Más información sobre el tipo de diseños que se pueden conseguir: https://ggplot2.tidyverse.org/reference/
Ejemplo 3: Tiros cada 90 minutos
Extraer los tiros para jugadores es relativamente sencillo una vez que sabemos hacerlo para equipos. ¿Pero cómo podemos ajustar los números por cada 90 minutos?
player_shots = StatsBombData %>%
group_by(player.name, player.id) %>%
summarise(shots = sum(type.name=="Shot", na.rm = TRUE)) #1
player_minutes = get.minutesplayed(StatsBombData) #2
player_minutes = player_minutes %>%
group_by(player.id) %>%
summarise(minutes = sum(MinutesPlayed)) #3
player_shots = left_join(player_shots, player_minutes) #4
player_shots = player_shots %>%
mutate(nineties = minutes/90) #5
player_shots = player_shots %>%
mutate(shots_per90 = shots/nineties) #6
1: Similar al cálculo para los equipos. Incluimos aquí ‘player.id’ ya que será importante después.
2: Esta función obtiene los minutos de cada jugador en cada partido en la muestra.
3: Agrupamos lo anterior sumando los minutos en cada partido para obtener el total de minutos disputados por cada jugador.
4 : left_join combina las tablas de tiros y de minutos con el player.id actuando como punto de referencia.
5: mutate es una función dplyt que crea una nueva columna. En este caso estamos creando una columna que divide los minutos totales entre 90 dando como resultado el número de 90s del jugador en la temporada.
6 : Finalmente dividimos los tiros totales entre el número de 90s para obtener la columna de tiros cada 90 minutos (shots per 90).
En este punto tendremos los tiros cada 90 minutos para todas las jugadoras de la WSL.
A continuación, se puede filtrar la tabla eliminando a las jugadores con insuficiente muestra mediante la función ‘filter’ (dplyr).
El mismo proceso puede ser aplicado a todo tipo de eventos: diferentes tipos de pases, acciones defensivas, etc.
Ejemplo 4: Representar Pases Gráficamente
Filtar los datos extrayendo un subconjunto de datos y visualizarlos sobre un campo empleando para ello ggplot2.
Finalmente, vamos a trazar los pases de un jugador en el campo. Para esto necesitaremos en primer lugar una visualización de un campo de fútbol. Es posible crear uno propio una vez estemos familiarizados con ggplot que pueda ser utilizado además para diferentes propósitos. Más adelante veremos opciones para ello. De momento, hay opciones ya formateadas que podemos utilizar.
La que utilizaremos aquí es cortesía de FC rStats. Este usuario de Twitter ha creado varios paquetes públicos de R para analizar datos de fútbol. El paquete que nos ocupa se llama ‘SBPitch’ y sirve exactamente para eso. En ‘Paquetes Adicionales’ veremos otras alternativas para crear campos de juego.
Para instalar SBPitch ejecutamos:
devtools::install_github("FCrSTATS/SBpitch")
Vamos a representar los pases completados por Messi dentro del área en la Liga 05/06. Trazar todos los pases sería farragoso y poco útil por tanto elegimos un subconjunto. Es importante asegurarse de utilizar las funciones explicadas anteriormente para importar los datos.
library(SBpitch)
passes = messidata %>%
filter(type.name=="Pass" & is.na(pass.outcome.name) & player.id==5503) #1 %>%
filter(pass.end_location.x>=102 & pass.end_location.y<=62 & pass.end_location.y>=18) #2
create_Pitch() +
geom_segment(data = passes, aes(x = location.x, y = location.y, xend = pass.end_location.x, yend = pass.end_location.y), lineend = "round", size = 0.6, arrow = arrow(length = unit(0.08, "inches"))) #3 +
labs(title = "Lionel Messi, Completed Box Passes", subtitle = "La Liga, 2005/2006") #4 +
scale_y_reverse() +
coord_fixed(ratio = 105/100) #5
1: Filtrar los pases de Messi. is.na(pass.outcome.name) filtrar solo los pases completados.
2: Filtrar los pases dentro del área. Las coordenadas del campo se pueden encontrar en nuestro event spec.
3: Obtenemos una flecha desde un punto de origen (location.x/y inicio del pase) a un punto final (pass.end_location.x/y, final del pase). Lineend, size y length son las opciones de customización disponibles aquí.
4: Crea un título y subtítulo para el gráfico. Entre otras opciones se puede añadir una leyenda usando caption =.
5: Ajusta el gráfico a la relación de aspecto elegida para que no quede estirado o poco estético. El resultado será un gráfico tal que así. De nuevo, esta es una versión básica a partir de la cual se pueden implementar todo tipo de mejoras visuales.
La opción theme() permite cambiar el tamaño, posición, fuente y otros aspectos de los títulos así como otros apartados estéticos del gráfico.
Es posible añadir colour= a geom_segment() para colorear los las flechas de cada pase del modo escogido.
En el siguiente enlace se pueden encontrar diferentes posibilidades disponibles para customizar los gráficos: https://www.rstudio.com/resources/cheatsheets/
Funciones útiles en StatsbombR
Existen docenas de funciones dentro de StatsbombR para realizar diferentes tareas. Se puede consultar la lista completa aquí. No todas las funciones están disponibles en los datos gratuitos. Algunas solo son accesibles para nuestros clientes (vía API). Una pequeña muestra de las más útiles:
- get.playerfootedness() – Devuelve la pierna hábil (preferida) de un jugador a partir de nuestros datos de pases (incluyen la pierna con la que se realiza el pase).
- get.opposingteam() – Devuelve una columna opuesta para cada equipo en cada partido.
- get.gamestate() – Devuelve la información de cuánto tiempo acumula cada equipo en cada uno de los posibles Game States (ganando/empatando/perdiendo).
- annotate_pitchSB() – Nuestra solución para trazar un campo de juego en ggplot.
Paquetes adicionales
La comunidad ha desarrollado múltiples paquetes para R. Es probable que cualquier cuestión o tarea que se quiera llevar a cabo en R tenga desarrollado un paquete específico para ella. Nombrar todos sería imposible pero aquí va una pequeña selección de algunos que son relevantes para trabajar con nuestros datos:
- Ben Torvaney, ggsoccer - Alternativa para trazar campos de juego con los datos de Hudl Statsbomb.
- Joe Gallagher, soccermatics – Otra alternativa para dibujar campos de juego incluyendo además atajos sencillos para crear mapas de calor entre otras funciones.
- ggrepel – Solución para problemas de texto superpuesto en las gráficas.
- gganimate – Opción sencilla para crear gráficos animados con ggplot en R.
Continuamos con la serie de artículos en los que tratamos de explicar las nociones básicas del análisis de datos en el fútbol. Históricamente la mayoría de la investigación en este área ha sido en inglés, pero queremos contribuir a cambiar eso. Esto pretende ser un manual básico para entender las métricas que se están generalizando en el fútbol y previsiblemente serán parte del vocabulario estándar en pocos años.
Sabemos que hay partes del juego y posiciones que son más difíciles de analizar desde un enfoque cuantitativo que otras. Históricamente, los aspectos defensivos han sido uno de los más complicados.
Este no es un problema exclusivo del fútbol, sino que ha sido recurrente en deportes con mayor nivel de desarrollo analítico como el baseball o el baloncesto.
Incluso en la famosa gesta de los Oakland A’s contada en Moneyball, Billy Bean y Paul De Podesta se centraron específicamente en la parte ofensiva. El desarrollo y análisis de la parte defensiva es algo que no se ha ido corrigiendo en general hasta mucho más recientemente.
¿Por qué la defensa es difícil?
Hay varias razones que explican por qué es tan difícil entender la defensa en fútbol.
Conceptualmente, hay una diferencia fundamental entre el ataque y la defensa: Mientras que en ataque, de un modo u otro, el rendimiento exitoso acaba traduciéndose en realizar una acción (rematar, completar un regate, meter gol etc.) y hacerlo más veces suele ser mejor, en defensa no siempre sucede lo mismo. No en vano, el objetivo es evitar que el equipo rival haga algo, y por tanto muchas veces lo que no se hace es tan importante o más que lo que sí se hace. Paradójicamente, en defensa menos puede ser mejor.
Por ejemplo, un posicionamiento adecuado o un pressing coordinado de manera eficaz limitan las opciones del rival y por tanto es menos probable que los jugadores más retrasados tengan que defender de manera activa frecuentemente.
Como ejemplo opuesto, si un portero tiene que intervenir muchas veces durante un partido para evitar que su equipo reciba gol, parece evidente que hay algún problema en la manera de defender de ese equipo más allá de las estadísticas individuales del meta.
Un defensa que realice más entradas o interceptaciones no es necesariamente mejor que uno que realice menos, estos datos miden en mayor medida la oportunidad que la habilidad. En las acciones que se realizan en defensa hay mucho más ruido que señal. ¿Cómo podemos empezar a disipar ese ruido?
La segunda razón, relacionada con lo anterior, tiene que ver con los datos que había disponibles hasta hace poco. Durante mucho tiempo los proveedores se limitaron a contar eventos (por ejemplo, interceptaciones) sin tener en cuenta si estos eran representativos de las tareas fundamentales en defensa. Por el camino, se dejaron algunas acciones que ahora sabemos no sólo dan una imagen más realista del espectro de tareas en defensa sino que además permiten analizar en detalle algunas posiciones concretas. Explicaremos más sobre esto al hablar de los eventos de presión.
Razones adicionales que van más allá del propósito de esta introducción son, entre otras, las interacciones entre jugadores, el contexto de las acciones defensivas, el tipo de datos empleados, o efectos de equipo difíciles de controlar.
En definitiva, ni todo lo que es relevante se puede contar, ni (hasta recientemente) se ha contado todo lo que es relevante.
Métricas Defensivas: Revisión de diferentes enfoques
Para comenzar a arrojar un poco de luz, vamos a hacer una pequeña revisión de los enfoques que se han empleado en los últimos años y a mostrar algunas de las soluciones que hemos desarrollado en StatsBomb para analizar la defensa con mayor rigor. Algunas de las preguntas relevantes son las siguientes:
- ¿Cómo de efectivos son los equipos tratando de evitar recibir goles?
- ¿Qué rasgos estilísticos diferencian equipos que tratan de presionar alto respecto a los que defienden en bloques medios o bajos?
- ¿Cómo podemos tener una visión más representativa de la influencia de determinados jugadores en defensa más allá de recuperar la posesión directamente?
Una de las premisas de las que partimos es que en defensa hay dos objetivos: Evitar recibir goles y recuperar la posesión. Ambos están latentes en las decisiones estratégicas que toman los equipos haciendo que haya rasgos estilísticos reconocibles que permiten situar los diferentes enfoques tácticos en categorías específicas.
Métricas de equipo: Defender nuestra portería
La primera tarea colectiva es evitar conceder goles restringiendo para ello la cantidad y calidad de ocasiones de las que dispone el rival. Si los Goles Esperados (xG) son una métrica útil para medir el rendimiento ofensivo, parece lógico pensar los Goles Esperados Concedidos (xGA) es una métrica que nos muestra la eficacia del equipo evitando que les generen ocasiones de valor elevado.
Un equipo al que regularmente le generan un número elevado de Goles Esperados es probable que - pese a variabilidad transitoria - acabe concediendo goles y por tanto teniendo complicado sumar puntos.
Además, podemos tratar de discernir la capacidad que tenga el equipo para conceder menos goles de los que el modelo espera (y la habilidad de los porteros evitando goles, pero este es un tema para otra ocasión). Hay equipos como el Atlético de Madrid que lo han logrado regularmente.
Sin embargo, no tenemos por qué detenernos en los números agregados de xG. Podemos analizar detalles sobre el volumen y aspectos concretos de los remates tales como distancia, situaciones de juego o defensores cercanos al rematador.
En este sentido, los datos de StatsBomb y por consiguiente los modelos construidos a partir de ellos proporcionan una visión más precisa del valor de las ocasiones que el equipo recibe. Podéis leer más en este artículo.
En el gráfico superior podemos ver los tiros claros concedidos (por partido) por los equipos de La Liga esta temporada. Los tiros claros (Clear Shots) son aquellos en los que no hay ningún defensor interponiéndose entre el rematador y el portero.
En el Freeze Frame inferior se puede ver un ejemplo de un Clear Shot.
También podemos analizar aspectos como los tiros bloqueados, la distancia media desde la que se remata, o la altura del remate, así como tiros precedidos por una pérdida en campo propio o tiros en situaciones de contraataque.
Además, dado que tenemos la posición de los defensas en cada remate podemos analizar al detalle cómo influye la presión de un defensor en los distintos remates. Revisaremos este tema en profundidad más adelante, pero si tenéis interés podéis leer la investigación original al respecto de Derrick Yam aquí, aquí y aquí (en inglés).
Es indudable que analizar lo que sucede en las áreas y las ocasiones de cada equipo aporta información relevante. Sin embargo, la pregunta que sigue sin quedar resuelta es qué hacen los equipos para evitar eso en primer lugar y cómo influye en la cantidad y calidad de las ocasiones.
Por ejemplo, hay equipos que prefieren presionar con una línea defensiva alta para así mantener al rival lejos de su área y limitar el número de tiros de los que dispone, sin embargo, al mismo tiempo esto hace más probable que las ocasiones de las que dispone el rival tengan un xG medio más alto (porque habitualmente serán situaciones de juego al espacio y unos contra uno).
Otros equipos prefieren defender más cerca de su propio área acumulando más jugadores en las inmediaciones, lo que limitará la calidad de las ocasiones rivales, pero al mismo tiempo tenderá a cederle la iniciativa por lo que dispondrá de mayor número de remates.
Analizar sólo el tipo o cómo evitan las ocasiones es descuidar la interrelación entre los dos objetivos anteriormente mencionados. Puesto que la defensa trata tanto de evitar conceder goles como de recuperar la pelota (para posteriormente crear ocasiones) entender las diferentes opciones tácticas para asegurar un equilibrio entre ambos y los trade-offs de diferentes enfoques ha sido una preocupación para la comunidad de analistas.
Rasgos estilísticos, control del espacio e intensidad defensiva
Las cuestiones habituales al respecto han sido cómo, cuánto y dónde realizan las acciones defensivas los equipos.
Ha habido varios enfoques al respecto, pero podemos señalar como inicial el trabajo de Colin Trainor en 2014 que llevó al desarrollo de la métrica PPDA (pases por cada acción defensiva). Esta métrica responde a una pregunta sencilla: ¿cuántos pases realiza el rival por cada acción defensiva de mi equipo?
Pases del rival / Acciones defensivas (entradas, interceptaciones, faltas, duelos)
Por tanto, a menor PPDA, mayor intensidad defensiva ejercida.
Partiendo de que el número de acciones defensivas de un equipos (originalmente entradas e interceptaciones) tienen nula correlación con el rendimiento de los equipos Colin desarrolló gradualmente una medida que era más representativa de la intensidad defensiva.
Pese a que la idea inicial era discriminar los equipos que mostraban una presión más alta, la métrica se fue desarrollando y gradualmente adaptando a diferentes zonas hasta ser una de las métricas descriptivas más empleadas para mostrar los rasgos estilísticos que definen la defensa de los equipos. En StatsBomb la utilizamos regularmente en los análisis.
Hay equipos que presionan más alto y otros que prefieren defender en bloque bajo. Poder diferenciar estos rasgos estilísticos es un primer paso para saber qué estrategia defensiva es más interesante, la influencia en las posteriores transiciones ofensivas, contextualizar los datos de un jugador individual o saber si el rendimiento del equipo con determinada estrategia tiene puntos débiles.
Otras fórmulas para medir la intensidad defensiva incluyen la altura a la que los equipos realizan acciones defensivas, las recuperaciones post-presión, entre otras.
En el gráfico superior podemos ver la distancia defensiva media (respecto a su propia portería) a la que los equipos realizan las acciones defensivas en Liga. Como se puede comprobar a simple vista, y de manera poco sorprendente, el Getafe y el Eibar sobresalen en está métrica.
Sin embargo, todas estas fórmulas quedaban cojas por las razones expuestas anteriormente - principalmente porque sólo utilizan acciones defensivas realizadas sobre el balón. En StatsBomb creíamos que había mucho margen de mejora y una de las soluciones que creíamos más valiosas era recoger otros eventos relevantes.
Las presiones
Los eventos defensivos en los proveedores de datos tradiciones han sido las entradas o tackles, interceptaciones, duelos, despejes, etc. Mientras que estos datos son útiles hasta cierto punto, no llegan a dar una visión representativa del espectro completo de acciones que tienen impacto a nivel defensivo del equipo, limitando así la capacidad de extraer conclusiones relevantes.
Es aquí donde las cosas se ponen interesantes, y los datos de StatsBomb proporcionan un nuevo evento que cambia la manera de afrontar el análisis defensivo: las presiones.
¿Qué son las presiones?
Una presión es la acción de atacar al poseedor de balón o al receptor de un pase - en un radio de 5-8 metros en función de la zona del campo - sin llegar a realizar una entrada, falta o interceptar el pase (cualquiera de estas acciones puede ocurrir posteriormente, pero es un evento diferente).
Para cada evento de presión tenemos su localización, dirección, duración y resultado. En el vídeo de la presentación de los datos de StatsBomb se puede encontrar más detalle sobre la manera de recoger este evento.
La lógica subyacente es que muchas de las acciones defensivas que permiten que posteriormente un equipo recupere la posesión o lleve a cabo un pressing* eficaz no se limitan a las acciones que ocurren sobre balón, sino que hay toda una serie de acciones que llevan a ello tales como cerrar líneas de pase, acelerar la acción del jugador, dirigirle hacia determinadas zonas, forzar pases descontrolados, o hacer que el jugador en posesión se quite el balón de encima.
A nivel colectivo esto nos permite tener una visión más realista y completa de los mecanismos tácticos que los equipos usan en fase defensiva: En qué zonas comienzan a ejercer presión, hacia qué lado dirigen a los rivales, dónde son más fuertes, con qué frecuencia presionan en determinadas zonas del campo y qué jugadores son los más involucrados en ello.
En el mapa defensivo inferior podemos ver la actividad defensiva (acciones defensivas incluyendo presiones) del Getafe respecto a la media de la Liga en cada zona. Los colores más rojos indican mayor actividad defensiva que la media, y los colores más oscuros menor. El perfil defensivo del Getafe es claro a simple vista.
Además, nos permite analizar al detalle aspectos como la presión tras pérdida, o los contraataques que se inician a partir de presiones en diferentes zonas.
En los gráficos superiores podemos ver el mapa de presiones del Real Madrid en el último Clásico. Las zonas en las que el Real Madrid realizó más presiones y las zonas en las que realizó más frecuentemente presiones tras pérdida (definido como presiones realizadas en los 5 segundos posteriores a la pérdida de balón).
A nivel individual, los datos de presión nos proporcionan una dimensión adicional para analizar el rendimiento defensivo. Este evento es especialmente relevante para los atacantes y los centrocampistas, pero por su granularidad y por la cantidad de eventos de este tipo que se dan por partido podemos emplear para analizar de manera más exhaustiva incluso los defensas.
El problema evidente que supone tratar de evaluar el rendimiento de los jugadores atacantes con las acciones como entradas o interceptaciones es que estas son por definición acciones en las que se trata de recuperar directamente la posesión. Sin embargo, como cualquiera con experiencia en fútbol puede corroborar, desde un punto de vista táctico las funciones defensivas habituales de los atacantes no son recuperar el balón.
Es decir, normalmente el delantero no presiona para recuperar la pelota por sí mismo, sino para tapar líneas de pase concretas, orientar la salida de balón del rival hacia zonas concretas (normalmente exteriores), forzar a los rivales a realizar acciones descontroladas, cometer errores, o a quitarse el balón de encima.
En definitiva, ayudar a que los compañeros tengan mayor probabilidad de recuperar la pelota posteriormente. Con los eventos de presión podemos otorgar valor a estas acciones y comenzar a analizar de manera más detallada el rendimiento de los jugadores sin balón.
Una de las maneras es utilizando la métrica Pressure Regains o Recuperación post-presión. Si el equipo recupera la pelota en los cinco segundos posteriores a una acción de presión de un jugador, se le asignará una recuperación post-presión al jugador. Este es un proxy muy práctico de la influencia de los jugadores atacantes en las recuperaciones de su equipo.
Como todo, no está exento de limitaciones, y es que un delantero puede esforzarse muchísimo, ejercer presión con el timing apropiado pero si el resto del equipo no le acompaña o no lo hacen de manera coordinada, difícilmente será efectivo. Sin embargo, estas métricas dan una visión más representativa de la realidad que intentamos analizar.
En los gráficos inferiores podemos ver la comparativa del rendimiento defensivo de Roberto Firmino (2018-2019) excluyendo las acciones de presión (gráfico izquierdo) e incluyéndolas (gráfico derecho).
Ventajas y usos adicionales de los eventos de presión
No tenemos por qué deternos aquí, los eventos de presión abren un abánico nuevo de posibilidades y preguntas que podemos intentar responder (y que de hecho aún estamos haciendo). Entre otras cosas podemos evaluar las acciones de counterpressure (presiones en los cinco segundos posteriores a la pérdida), qué jugadores tienen mayor influencia en los momentos de transición defensiva o cómo la capacidad de presionar evoluciona a lo largo de los partidos, de las temporadas o cómo disminuye con la edad.
También podemos medir aspectos como la intensidad (o agresividad) defensiva, el número de recepciones en zonas de influencia presionadas, entre otras.
Además, los usos de estos datos no se circunscriben sólo al apartado defensivo, sino que gracias a tener los eventos de presión, al mismo tiempo, podemos saber si los jugadores en posesión del balón están siendo presionados mientras realizan una acción determinada (AUP o Actions Under Pressure). Es decir, podemos ver cómo cambian las decisiones y el grado de precisión en las acciónes de los jugadores en posesión cuando están presionados respecto a cuando no lo están. Esto no es sólo fascinante sino que tiene innumerables utilidades prácticas.
En la imagen superior podemos comparar visualmente los pases desde zonas centrales a zonas adyacentes de Casemiro y Busquets cuando están presionados. El jugador catalán tiene un volumen mayor como es esperado, así como un porcentaje de pases completados mayor (en rojo los completados) y su tendencia a distribuir en corto hacia las bandas incluso bajo presión es evidente. Por su parte el mediocentro brasileño prefiere los envíos largos y los cambios de orientación al lado opuesto.
Ajustar las métricas defensivas en función de la posesión
Para terminar, hay una pregunta recurrente que tenemos que abordar, ¿Cómo afecta el estilo de juego del equipo al output defensivo de los jugadores? ¿Qué podemos hacer para controlar esto?
Uno de los puntos más claros, es que los jugadores sólo pueden realizar acciones defensivas cuando su equipo no tiene la posesión, por tanto, en función del tiempo que el equipo esté en posesión tendrán más o menos oportunidades de sumar acciones defensivas. Esto hace que los equipos con volúmenes elevados de posesión tengan menor número de acciones defensivas y por tanto los números absolutos de tackles, interceptaciones (o presiones) tienen más ruido de lo deseable.
Por tanto, para una comparación más objetiva una de las soluciones prácticas y sencillas es ajustar en función de la posesión (esto es más difícil de lo que parece, si tenéis interés podéis leer el artículo de Ted Knutson con la metodología original aquí).
En el gráfico superior vemos los diez jugadores de La Liga esta temporada ordenados por la suma de interceptaciones y entradas (cada 90 minutos). Mientras que el gráfico izquierdo muestra los valores absolutos, el derecho muestra los valores una vez que aplicamos el ajuste en función de la posesión de sus equipos.
Pese a que algunos nombres se repiten, como es esperable, en el ranking ajustado vemos algunos sospechosos habituales que pese a ser defensores intensos y agresivos no aparecen en el izquierdo (o en menor medida) simplemente porque sus equipos dominan la posesión más tiempo.
Este ajuste es una solución práctica para estandarizar los valores de modo que se puedan comparar entre diferentes jugadores corrigiendo aspectos ajenos a su habilidad.
Sin embargo, es importante remarcar que una vez ajustada por posesión ya no existe una correspondencia verídica entre el valor de la métrica y las acciones reales que podamos ver en vídeo. Es por ello, que los números absolutos siguen teniendo utilidad a la hora de evaluar el rendimiento de los jugadores (por ejemplo, para definir los límites).
* Aclaración: Adaptando la terminología inglesa, al hablar de presión nos referimos a la acción individual. Por su parte, pressing se refiere a la tactica colectiva basada en acciones presión de manera coordinada por los miembros del equipo.
Continuamos con la serie de artículos en los que tratamos de explicar el uso del análisis de datos en el fútbol y algunos conceptos relacionados con ello. Históricamente la mayoría de investigación en esta área ha sido realizada en inglés, pero queremos contribuir a cambiar eso. Esto pretende ser un manual básico para entender los datos y métricas que se están generalizando en el fútbol y previsiblemente serán parte del vocabulario estándar en pocos años, si no lo son ya.
Hablaremos de matemáticas pero también de fútbol. Intentaremos que estos artículos sean comprensibles, ilustrativos y didácticos.
El tema que vamos a tratar hoy es el ajuste por cada 90 minutos en las métricas.
Ajuste por cada 90 minutos
Utilizar medidas que sean estandarizadas es probablemente el primer paso que se debe dar para evaluar la aportación de un jugador de manera objetiva, analizar su rendimiento y comparar entre distintos jugadores.
Actualmente, ajustar por 90 minutos no es una novedad y existen propuestas adicionales, con sus pros y sus contras. Sin embargo, es todavía habitual en muchos lugares emplear medidas absolutas o medidas por partido.
¿Por qué utilizar medidas ajustadas?
La premisa básica es que en función del tiempo de juego del que disponga un jugador tendrá más o menos posibilidades de realizar acciones y de generar rendimiento acorde a su habilidad real.
La segunda premisa es que, hasta cierto punto, el tiempo de juego del que los jugadores disponen es independiente de ellos.
Utilizar medida absolutas imposibilita las comparaciones entre jugadores que disputan diferente cantidad de minutos a lo largo de una temporada.
Las medidas por partido, por otro lado, están fuertemente sesgadas debido a que hay jugadores que participan habitualmente en un porcentaje mayor de minutos que otros, ya sea por lesiones, tendencia a ser sustituidos o a entrar del banquillo entre otros factores. Este último punto es importante y afecta también al ajuste por 90 minutos como veremos más adelante.
Para corregir estos problemas la solución más sencilla y práctica es ajustar las medidas de rendimiento por cada 90 minutos. Es decir, mostrar el rendimiento cada 90 minutos de juego.
Para ajustar una medida de esta manera simplemente necesitamos la siguiente fórmula:
Tiros cada 90 minutos = (90/minutos jugados)*total tiros
Vamos a ver un ejemplo sencillo. En la tabla inferior tenemos los tiros de la pasada temporada de Vinícius Junior y Portu. Como se puede observar, ambos tienen la misma cantidad de tiros a lo largo de toda la Liga. Sin embargo, al ajustarlos en función del tiempo de juego de cada uno las diferencias en el volumen rematador de ambos jugadores se hacen evidentes. Mientras que Portu promedió 1.30 tiros cada 90 miutos, Vinícius Junior generó 4.17 tiros cada 90 minutos.
Si llevamos esta diferencia a los 38 partidos que dura una liga se traduciría en una diferencia de 100 tiros más para el jugador brasileño.
Al mismo tiempo, hay jugadores cuyas diferencias absolutas son grandes, pero al ajustarlas por 90 minutos se reducen o incluso igualan, siendo el factor tiempo de juego lo que explica las diferencias.
Con los datos de La Liga 2018-2019, vemos que pese a que Borja Iglesias remató 23 veces más que Iago Aspas a lo largo de la temporada, cuando ajustamos la medida en función del tiempo de juego de cada uno, el rendimiento de ambos jugadores en lo que respecta a tiros fue similar.
El tamaño de la muestra importa
A pesar de la innegable utilidad de este tipo de ajustes en las métricas de rendimiento, hay que hacer varias matizaciones al respecto.
Por un lado, hay que tener cuidado con el tamaño de la muestra del jugador. Esto es debido a que los jugadores que juegan pocos minutos tienen mayor variabilidad en su rendimiento, y mientras que no sería raro que en 300 minutos un jugador promediara 4 tiros cada 90 minutos es bastante improbable que esa media se mantenga al disputar mayor número de minutos por pura regresión a la media.
Para evitar estos problemas normalmente se filtra un mínimo de minutos para incluir a los jugadores en listas, comparaciones entre diferentes individuos, o para proyectar su rendimiento.
Por otro lado, hay que tener en cuenta las razones por las que un jugador que promedia buenos números ajustados cada 90 minutos acumula poco volumen total de juego a lo largo de la temporada. Quizás subyace una alta incidencia lesional u otro tipo de problemas que desconocemos.
No obstante, a veces las razones por las que un jugador no consigue disponer de suficientes minutos son aleatorias, no dependen de su habilidad real, o los entrenadores no son infalibles. Por tanto, es posible que un jugador con buenos números cada 90 minutos que no es seleccionado para jugar de manera habitual en determinadas circunstancias sea capaz de generar ese rendimiento de manera consistente bajo otras circunstancias.
Los sesgos relativos a las sustituciones
Por último, hay que tener en cuenta que las métricas cada 90 minutos no están exentas de sesgos. Algunos de los más reseñables son los relativos a las sustituciones.
Por ejemplo, se ha hallado que los jugadores atacantes que entran desde el banquillo rinden muy por encima de lo que se esperaría de ellos en medidas como Contribución Goleadora (Asistencias + Goles) cada 90 minutos.
Las razones que explican esto pueden ser varias. Desde un punto de vista puramente fisiológico, es razonable que cuando un delantero entra desde el banquillo los jugadores defensores estén fatigados, por tanto tenga mayor facilidad para generar ocasiones.
A nivel táctico, el entrenador habitualmente introduce un delantero en el campo cuando el equipo lo requiere dado un resultado adverso. Puesto que con un resultado desfavorable el equipo que va perdiendo necesita hacer gol, es más probable que genere más ocasiones de lo habitual. Esto puede ser una causa para inflar los números del delantero que entra desde el banquillo.
Relacionado con lo anterior, también se ha encontrado que en las segundas partes, y concretamente en el último cuarto de hora, se convierten más goles. Sobra decir que es en estos momentos cuando se realizan la gran mayoría de sustituciones, por tanto es posible que los jugadores que entren de refresco se beneficien de ello (o que sean ellos los causantes de ese aumento en la conversión).
Para concluir, es posible que los jugadores que son sustituidos también tengan una ventaja dado que no están en el campo en los momentos de mayor fatiga y donde previsiblemente tendrían menor posibilidad de aportar al equipo. Por tanto, esos minutos donde sería esperable que su rendimiento disminuyera no serían contabilizados indirectamente inflando sus números cada 90 minutos. Esto puede ser debido a que no tienen la condición física suficiente o a que el entrenador tiene una estrategia concreta para cada momento del partido.
Conclusión
Ajustar las métricas es un paso necesario para poder establecer comparativas objetivas entre jugadores. Hacerlo por cada 90 minutos es una solución sencilla, robusta y útil para este fin. Sin embargo, no está exenta de sesgos, y esto es algo normal, puesto que todo modelo es tan útil como limitaciones tenga. Nuestro deber es ser honestos y explícitos en ello para proporcionar una visión completa y ser conscientes de las limitaciones para seguir avanzando.
Existen otras propuestas para ajustar las métricas, como pueden ser los ajustes por un número dado de posesiones. Estas alternativas, además de requerir cálculos más complejos y ser menos intuitivas, no están tampoco libres de problemas: Desde la propia definición de unidad de posesión hasta el hecho de que hay equipos que sistematicamente tienen posesiones más largas que otros.
Finalmente, como dice Nate Silver, es clave contextualizar los datos para evitar estos y otros sesgos al hacer una evaluación del rendimiento de los jugadores.
Bienvenidos al comienzo de una serie de artículos en los que trataremos de explicar las nociones básicas del análisis de datos en el fútbol. Históricamente la mayoría de la investigación en este área ha sido en inglés, pero queremos contribuir a cambiar eso. Esto pretende ser un manual básico para entender las métricas que se están generalizando en el fútbol y previsiblemente serán parte del vocabulario estándar en pocos años.
Vamos a comenzar con el marco general empleado en la mayoría de análisis actuales: los Goles Esperados (xG).
Definición de los Goles Esperados (xG)
La probabilidad de que un tiro dado termine en gol.
Vamos a tomar como ejemplo a un jugador que remata desde un lugar en el campo, queremos saber cuántas veces han sido gol los tiros desde esa posición y con características similares. O, un equipo ha generado una gran cantidad de ocasiones a lo largo de una serie de partidos pero ha marcado pocos goles, ¿el problema ha sido el acierto a puerta? ¿O simplemente las ocasiones no han sido de calidad?
Los modelos de Goles Esperados ofrecen un marco formal para dar respuesta a estas preguntas.
¿Por qué nos interesan los tiros?
Los goles son los sucesos más importantes en un partido puesto que determinan los ganadores y perdedores. Sin embargo, los goles son también uno de los eventos más infrecuentes en el fútbol. En las grandes ligas, el promedio se sitúa entre 2.5-3 goles por partido. Todo ello hace del fútbol el deporte más imprevisible y emocionante del mundo pero al mismo tiempo complica la tarea de analizarlo estadísticamente dado que el mejor equipo gana menos veces que en otros deportes.
Por poner un ejemplo opuesto, en la NBA es normal que ambos equipos anoten más de 90 puntos por partido generando muestra suficiente para analizar el rendimiento a través de los puntos. Sin embargo, no podemos hacer lo mismo en el fútbol cuando sólo tenemos dos o tres goles por partido puesto que la varianza es mayor. Esto hace del fútbol un deporte en el que la suerte tiene un papel significativo.
Sabemos que los goles vienen precedidos por tiros, puesto que para hacer gol es necesario rematar. Por tanto, podemos dar un paso atrás y fijarnos en los tiros. De repente, en vez de entre 2.5-3 eventos por partido, tenemos entre 25 y 30 - diez veces más.
Analizar los remates fue la base de algunos de los primeros análisis estadísticos en fútbol: Si el 10-11% de los tiros terminan en gol, la lógica nos dice que los equipos que disparan más que sus rivales deberían ganar un porcentaje mayor de partidos. Gente como Gabriel Desjardins, James Grayson, y Benjamin implementaron estas ideas desde el análisis del hockey y crearon la métrica Total Shots Ratio.
La métrica Total Shots Ratio es el ratio entre los tiros de un equipo y el total de tiros en un partido o una serie de partidos.
Total Shots Ratio (Equipo A) = Tiros a favor / (Tiros a favor + Tiros recibidos)
Vamos a ver un ejemplo concreto: En el partido Athletic Club-Real Sociedad de La Liga 2019-20, el equipo local remató 15 veces y el visitante 2 veces. Por tanto, el TSR del Athletic se calcularía de la siguiente manera: 15 / (15+2) = 0.88
Al tratarse de un ratio, la medida está acotada entre 0 y 1. En consecuencia, el TSR de la Real Sociedad se puede calcular del siguiente modo: 1 - TSR(Athletic) = 0.12
A lo largo de una serie de partidos, el Total Shots Ratio se demostró como un mejor predictor del ratio de goles de un equipo que el propio ratio de goles de ese mismo equipo. En su momento, esta medida fue útil y un paso en la dirección correcta. Sin embargo, tiene varios problemas intrínsecos en su planteamiento que podemos reducir a: no todos los tiros son iguales. Para superar estos problemas surgieron los modelos de Goles Esperados (o xG como acrónimo del término original Expected Goals).
Goles esperados: un paso adelante
Como espectadores sabemos que un tiro desde dentro del área pequeña tiene mayor probabilidad de ser gol que uno desde 30 metros de distancia. ¿Pero cuánto más? Los modelos de Goles Esperados (xG) tratan de asignar un valor a esta diferencia.
¿Cómo se calcula el xG?
Los modelos de Goles Esperados emplean datos históricos para calcular la probabilidad de que un tiro dado sea gol en función de diferentes factores (distancia, ángulo, etc).
El primer modelo conocido fue desarrollado por Richard Pollard y Charles Reep en 1997 y el primer modelo público del que hay constancia es de Sarah Rudd en 2011. Sam Green, Michael Caley, Paul Riley, Constantinos Chappas o Colin Trainor desarrollaron también algunos de los primeros modelos públicos.
Aunque cada modelo tiene sus particularidades, históricamente estos son los factores más importantes para evaluar la calidad de un tiro:
- Distancia a portería
- Ángulo respecto a portería
- Parte del cuerpo con la que se realiza el remate/tiro
- Tipo de asistencia o acción previa (pase en profundidad, centro, balón parado, regate...)
Con esta información sobre un histórico suficientemente grande, el modelo atribuye a cada tiro un valor entre 0 y 1 que expresa la probabilidad de que termine en gol. Por ejemplo, observemos la siguiente imagen:
Un tiro desde este punto y con unas propiedades similares tiene un valor aproximado de 0.03 Goles Esperados (en adelante simplemente 0.03 xG). Esto significa que razonablemente podemos esperar que, de media, uno de cada 33 tiros sea gol en base a lo que ha sucedido con tiros similares anteriormente.
De estos modelos podemos aprender que:
- Cuanto más cerca de la portería sea el tiro mayor es la probabilidad de marcar
- Las zonas centrales son mejores que las zonas laterales del área (principalmente porque el ángulo es menor desde las zonas laterales)
- Desde la misma distancia, los remates con los pies tienen mayor probabilidad de terminar en gol que los remates de cabeza
- En general, los centros son más difíciles de convertir que los pases rasos, pases en profundidad, y los tiros tras regate
Para visualizar esto último:
Sin embargo, lo más importante no es tanto lo anterior, que hasta cierto punto es intuitivo, sino la capacidad de tener una manera sistemática de evaluar el valor de cada ocasión.
Por otro lado, de las investigaciones con modelos de xG aprendimos también que la posición y propiedades de un tiro son mucho más importantes que el jugador que lo realiza. Es cierto que con suficiente tamaño de muestra (años) o con modelos bayesianos podemos identificar algunos jugadores que destacan por su habilidad rematadora (Leo Messi) o por su falta de ella (Jesús Navas). Sin embargo, la inmensa mayoría de jugadores están alrededor del promedio. Así, en términos generales, lo que diferencia a los buenos delanteros no es la capacidad de convertir un mayor porcentaje de sus ocasiones sino la capacidad de generar más tiros desde zonas y situaciones valiosas.
A nivel colectivo, la correlación entre los Goles Esperados respecto al rendimiento futuro es mayor que el TSR o el propio rendimiento actual. Son útiles para evaluar el estilo y rendimiento tanto de equipos como de jugadores.
La variabilidad aleatoria en la conversión de ocasiones puede hacer que un equipo con un rendimiento subyacente notable parezca estar sufriendo una crisis (en palabras simples, mala suerte). Por contra, un equipo con una racha favorable de cara a gol puede situarse por encima de lo que su xG indica.
Este rendimiento subyacente, medido con un modelo de xG, unido a un concepto estadístico básico llamado regresión a la media nos permite hacer juicios y predicciones robustas sobre el rendimiento y potencial real de un equipo.
Un aspecto reseñable es que los diferentes modelos consideran una variedad de factores, sin embargo, no todos tienen en cuenta toda la información relevante para evaluar la calidad de los tiros. Es en este punto donde los datos y modelos de StatsBomb marcan una diferencia clave.
El xG de StatsBomb
En 2017, en StatsBomb decidimos que queríamos tener mejores datos para potenciar nuestros análisis y ayudar a los clubes a avanzar en el análisis. Estábamos seguros de que con más y mejor información podríamos mejorar los modelos existentes. Por ello, empezamos a recolectar nuestros propios datos.
Nuestros datos incluyen, entre otras cosas, los siguientes aspectos de manera explícita:
- Posición del portero en cada remate
- Colocación del portero: tumbado, movimiento, fijo
- Posición de los defensores y de los atacantes en cada remate
Para cada tiro y remate, tenemos una imagen así:
Esta nueva perspectiva incorporando información adicional relativa a la situación del disparo, llamada Freeze Frame, ha mejorado mucho los resultados de nuestros modelos de Goles Esperados.
Pese a todo, somos conscientes de que no existe el modelo perfecto. No obstante, tenemos la certeza de que nuestros modelos son los más precisos y útiles que existen. La mejora constante es parte de nuestro ethos, por ello, hemos añadido la altura del balón en el momento del golpeo como factor adicional. Hemos visto que la adición de la coordenada z podría ha mejorado aún más la capacidad predictiva del modelo.
Ejemplo del xG: FC Barcelona 2017-18
¿Crees que puedes identificar un tiro convertido uno de cada dos veces? ¿Y uno convertido una de cada diez? Utilizando como ejemplo las ocasiones del Barcelona en la 17-18 vamos a intentar ilustrar diferentes conjuntos de tiros en función de su xG. Por simplicidad, excluimos los remates de cabeza.
Empezamos con el conjunto de tiros que terminan en gol menos de una vez de cada 20.
En segundo lugar, el conjunto de los tiros convertidos desde una vez de cada 20 hasta una de cada 10.
No hay muchas sorpresas hasta ahora. Los tiros de larga distancia no suelen ser gol. Sin embargo, podemos ver que los tiros desde ángulos ajustados también son habitualmente ineficientes. Los jugadores tienden a sobreestimar la facilidad de marcar desde estas zonas cuando en realidad existen pocos especialistas en marcar desde estas posiciones. Sergio Agüero es el ejemplo más llamativo.
En la siguiente imagen, vemos los tiros que terminan en gol entre una de cada diez veces y una de cada cinco. Como es esperable, estos tiros están cada vez más cerca de la portería y desde zonas centrales del área.
Cuando llegamos a los tiros que terminan en gol una de cada cuatro y una vez cada tres veces, las localizaciones se han centrado mucho y la mayoría están en el ancho del área pequeña.
Finalmente, los tiros que son gol al menos una de cada dos veces. No es fácil crear ocasiones de este tipo. Incluso el Barcelona, el equipo con mayor producción ofensiva esa temporada (99 goles), sólo creó 17 ocasiones con un xG tan alto. Esto nos ayuda a poner en perspectiva la dificultad de crear ocasiones tan claras y a generar unas expectativas realistas del rendimiento ofensivo de los equipos.
Aplicaciones prácticas de los Goles Esperados
La siguiente pregunta habitual es ¿qué podemos hacer con un modelo de Goles Esperados?
Dentro de un club, los datos pueden aportar un valor añadido tanto en el campo (por ejemplo, entrenamiento, táctica, acciones a balón parado) como fuera del mismo (por ejemplo, mercado de traspasos, negociación de contratos). Sin embargo, por la naturaleza y el estado actual del fútbol, los mayores margenes están todavía en las direcciones deportivas.
En lo relativo al mercado de traspasos, los modelos de xG tienen múltiples usos, desde hacer más eficientes los procesos de filtrado previo hasta permitir una valoración más precisa del rendimiento de los atacantes y predecir su rendimiento futuro.
Como ejemplo vamos a ver uno de los usos más prosaicos y al mismo tiempo más valiosos dentro de un departamento de scouting: Evitar decisiones erróneas identificando el rendimiento subyacente de los jugadores, más allá de producciones insostenibles o infladas por fluctuaciones aleatorias en la conversión.
La imagen inferior muestra el mapa de tiros de Enis Bardhi (Levante) en la temporada 2017-2018.
Bardhi marcó nueve goles esa temporada, pero nuestro modelo de Goles Esperados (2.78 xG) sugería que esa conversión era insostenible y que se debió probablemente a fluctuaciones aleatorias en su rendimiento. Metió 5 de las 16 faltas directas que tuvo esa temporada.
En la siguiente temporada, la 2018-2019, Bardhi generó incluso un número mayor de xG, pero sólo marcó tres goles, dentro de lo esperado por el modelo. Como curiosidad, esta temporada marcó sólo una de las 19 faltas directas que tuvo.
Si algún equipo hubiera fichado a Bardhi en el verano de 2018 esperando que fuera un jugador de 9-10 goles por temporada, las expectativas del rendimiento hubieran sido irreales y probablemente hubieran lamentado el fichaje.
Esto no implica que nunca vayamos a querer fichar a ese jugador, pero con un modelo de xG podemos hacernos expectativas más realistas del rendimiento que podemos esperar de Bardhi en el futuro y por tanto juzgar de manera más objetiva la idoneidad de su fichaje.
Para ver un ejemplo totalmente opuesto, en la imagen inferior podemos observar el mapa de tiros de Karim Benzema en la temporada 2017-2018. Durante esa temporada la opinión pública fue unánimemente crítica respecto al rendimiento del francés y no faltaron quienes sugirieron que su tiempo en el Real Madrid debía tocar a su fin.
Mientras que está fuera de toda duda que su rendimiento goleador fue decepcionante, la pregunta que nos debemos hacer es cuánto de esa producción se debió a fluctuaciones aleatorias en la conversión - o en otras palabras, mala suerte - y cuánto a un posible declive en sus habilidades futbolísticas.
Nuestro modelo de Goles Esperados nos da una pista al respecto, Benzema generó 9 xG pero sin embargo sólo logro convertir 3 goles (excluyendo penalties). Por tanto, el modelo nos sugería que Benzema tuvo mala suerte de cara a puerta. El siguiente mapa de tiros de Benzema es de la temporada inmediatemente siguiente (Liga 2018-2019).
Como se aprecia a simple vista, el rendimiento de Benzema esta temporada no sólo fue remarcable en la producción de ocasiones valiosas (12 xG) sino que además fue excelente en cuanto a conversión, metiendo 18 goles (más 3 penaltis).
Además, hay un aspecto reseñable que quiero mencionar: En los mapas de tiros se muestra el número total de ocasiones y goles a lo largo de una temporada, pero sabemos que no es lo mismo jugar 1500 minutos que hacerlo 3000. Por tanto, para una comparativa más precisa debemos controlar el tiempo de juego. ¿Qué ocurre cuándo ajustamos los números de Benzema por cada 90 minutos?
La temporada 17-18 Karim Benzema disputó 2251 minutos en liga y generó 9.22 xG. Con un calculo sencillo obtenemos que sus Goles Esperados cada 90 minutos esa temporada fueron 0.37 xG90.
La siguiente temporada, Benzema disputó 3086 minutos, generando 12 xG. Con el cálculo anterior obtenemos que sus Goles Esperados cada 90 minutos fueron 0.35 xG90.
Por tanto, Benzema no sólo no estaba en declive la temporada anterior sino que su rendimiento subyacente (en lo que respecta a generar ocasiones) fue prácticamente el mismo y simplemente la conversión y el tiempo de juego hicieron que su producción final fuera diferente de un año a otro.
El xG en la evaluación del rendimiento de los equipos
Los Goles Esperados también son válidos para en evaluar de manera adecuada la calidad subyacente de los equipos de una liga tanto a nivel de toma de decisiones como por razones financieras.
Vamos a examinar el caso del Alavés en la 2018-19. La gráfica inferior compara la Diferencia de Goles (verde) y la Diferencia de Goles Esperados (morado) del equipo vasco durante esa temporada, empleando la media móvil de diez partidos. El área verde representa sobrerendimiento de Goles respecto a Goles Esperados.
El Alavés estuvo clasificado entre los cincos primeros durante casi media temporada pero sus números de xG nunca fueron tan buenos como para estar en esas posiciones. Cuando los resultados empezaron a reflejar su rendimiento subyacente, el equipo cayó hasta el puesto 11º en el que finalizó la temporada.
¿Usar los xG en el entrenamiento?
En la dimensión del entrenamiento y el análisis táctico se puede utilizar el modelo para analizar decisiones tanto en ataque como en defensa. Por ejemplo, un entrenador podría visualizar la diferencia entre dos tiros y con esa información, ayudar a los jugadores a evaluar mejor las opciones disponibles. De nuevo, podemos ver la imagen que representa una ocasión con un valor de 0.03 xG:
Un tiro desde este lugar termina en gol una de cada 33 veces. En lugar de tirar, quizás puede ser mejor tratar de pasar en profundidad al desmarque del atacante:
Un pase exitoso similar en esta situación podría generar una oportunidad de remate con valor aproximado de 0.40 xG o más. Es decir, una ocasión 13 veces más valiosa que el tiro desde larga distancia. Incluso si el pase se completara sólo 1 de cada 10 veces, seguiría siendo una mejor opción.
P(pase) * P(gol) = 0.10 * 0.40 = 0.04 xG
Obviamente, existen factores relevantes que influyen en ello como la habilidad, el entrenamiento (el modelo no da respuesta a la pregunta de cómo entrenarlo), o estratégicos - relativos a teoría de juegos.
Finalmente, los Goles Esperados tienen utilidad también para los amantes del Fantasy Football para identificar jugadores que están generando tiros valiosos pero que no están marcando muchos goles. Esto le puede pasar a cualquier jugador y no significa que exista un problema grave. Como hemos dicho antes, lo más importante es generar suficiente cantidad de tiros valiosos.
En lo que respecta a los medios, los Goles Esperados son una herramienta interesante para los espectadores que consumen análisis más profundos que simplemente con goles y resultados.
Conclusión
Los modelos de Goles Esperados no son perfectos y por definición no pretenden explicar ni todo el rendimiento ni en todo momento. Existen equipos que rinden por encima de los Goles Esperados durante periodos largos. A veces existe un jugador como Messi:
Sin embargo, es la métrica más predictiva y robusta del rendimiento de equipos y jugadores que tenemos hoy en día. Los modelos de Goles Esperados dan una imagen más precisa del proceso que los propios resultados y como tal son una herramienta útil para analizar el rendimiento de equipos, jugadores y entrenadores y tomar decisiones de manera más acertada.