Fútbol

En 2021, lanzamos StatsBomb 360, un nuevo producto que incluye un freeze frame para todos los eventos de un partido, mostrando la posición de todos los jugadores en la pantalla…

La revolución de los datos en el fútbol no es sólo para los grandes clubes de las más poderosas ligas europeas. En StatsBomb, tenemos clientes en cada uno de los continentes del mundo, pero hemos observado un aumento de interés especialmente notable en Latinoamérica.

Hemos decidido realizar una muy necesaria innovación en torno a los goles esperados. Descubre en este artículo cómo nuestro nuevo modelo de xG ofrece una nueva perspectiva.

Falta solo un día para que arranque uno de los eventos deportivos más importantes y prestigiosos del fútbol mundial: el Tournoi Maurice Revello (anteriormente conocido como el torneo de Toulon).

Durante las siguientes dos semanas, muchos de los jóvenes más talentosos del planeta se verán las caras en una nueva edición que reúne a las selecciones nacionales de Argentina, Arabia Saudí, Francia, Panamá, Indonesia, Venezuela, México, Ghana, Japón, Argelia, Colombia y Comoras.

Grandes leyendas del fútbol mostraron su valía en anteriores ediciones: Zidane, Cristiano Ronaldo, Cafú, Lampard, James Rodríguez…hay tantos que la lista no terminaría nunca.

La pregunta entonces es, ¿cuántos de los jóvenes que participarán en esta edición se convertirán en las grandes estrellas del panorama futbolístico? Imposible saberlo aunque, en StatsBomb, orgullosos proveedores oficiales de datos del torneo, hemos querido proponeros 5 nombres para abrir boca. Estas son las ventajas de poder disponer de los mejores datos del mundo. ¡Ah! Y, por supuesto, tendremos los mejores análisis y datos de todos y cada uno los partidos que se disputen no solo del Tournoi Maurice Revello sino también de la Sud Ladies Cup que tendrá lugar en Junio.

Algo muy extraño ha sucedido en la League Two de Inglaterra esta temporada… dos de los equipos que han logrado el ascenso automático y otro más a través del playoff son clientes de StatsBomb.

¿Qué futbolista de La Liga ha agregado más valor mediante sus conducciones durante la temporada 2021/2022? A través de un complejo proceso podemos ver qué jugadores de La Liga han agregado más valor a sus equipos con sus jugadas.

El Flamengo y el Palmeiras son los dos últimos ganadores de la Copa Libertadores y uno de ellos volverá a levantar el trofeo cuando se enfrenten en la final de la edición de 2021 en Montevideo el sábado. Es la segunda final consecutiva entre dos equipos brasileños, en este caso entre dos que provienen de los dos principales ciudades del país: Rio de Janeiro y São Paulo. Es probable que ambos equipos terminen la temporada de la Serie A entre los tres primeros de la clasificación, aunque sólo el Flamengo aún tiene la oportunidad de luchar con el Atlético Mineiro por el título, y aunque el Flamengo ha sido el mejor equipo según tanto los resultados como los números subyacentes, la diferencia no es tan grande como para pensar que el resultado de la final ya está cantado. El Flamengo es un equipo que apuesta por el balón, construyendo juego desde atrás con pases cortos y dominando la posesión en sus partidos. En promedio, tiene un 60% del balón, cuatro puntos porcentuales más que cualquier otro equipo. La cifra del Palmeiras es mucho más cerca de un 50% y es un equipo más directo, con una longitud media de pase que figura entre las más largas de la liga. Esta diferencia queda evidente cuando echamos un ojo a las zonas del campo desde las que los dos equipos generan más peligro. Con la ayuda de nuestro nuevo modelo On-Ball Value (en adelante, OBV), un modelo que mide el cambio en la probabilidad de un equipo de marcar/conceder como resultado de una acción dada, podemos visualizar los sectores del campo desde las que los dos equipos generan más valor respecto a la media de la liga. El Flamengo es mucho más activo en las zonas centrales, sobre todo en los pasillos interiores del último tercio donde crea la mayoría de sus ocasiones. Desde la izquierda, los pases incisivos de Giorgian de Arrascaeta y las conducciones directas de Michael son las acciones que agregan más valor; desde la derecha, los pases del delantero centro Gabriel Barbosa. Barbosa, que marcó el doblete en los dramáticos momentos finales de la final de 2019 contra el River Plate que le dio la Libertadores al Flamengo, juega como el único delantero centro en el esquema de Renato Gaucho y es el máximo goleador del equipo en la Libertadores con 10 tantos. Sin embargo, no es su única amenaza goleadora. El Flamengo tiene los mejores números atacantes de la Serie A tanto reales como subyacentes, además de haber marcado una media de 2.75 goles por partido en la Libertadores, y Bruno Henrique y Michael también han marcado más de 10 goles de liga. En cuanto a la tarea de hacer llegar el balón al ataque, es Filipe Luís que sobresale. El ex-lateral del Atlético Madrid es mucho más activo en zonas interiores que la gran mayoría de los laterales de la Serie A y lidera tanto su equipo como la liga en incursiones en el último tercio (mediante pases o conducciones), distancia avanzada en campo contrario y con las acciones directamente relacionadas a los tiros eliminadas del cálculo, OBV. Aún a sus 36 años, tiene un papel muy importante en el equipo. En lo que se refiere al avance del balón, hay una balanza más igualada entre los dos lados del campo en el Palmeiras, con los pases y las conducciones de Dudu desde la banda izquierda acoplados con las subidas del lateral Marcos Rocha, o su suplente Gabriel Menino, por la derecha. Más atrás, Luan figura entre los centrales de la Serie A que más valor agregan con sus pases según OBV. Sin embargo, es desde la derecha que el equipo de Abel Ferreira crea la mayoría de sus ocasiones. El cuadro de rojo oscuro dentro del área en el gráfico de arriba de OBV representa las aportaciones de Rocha, el delantero Rony y el mediapunta o extremo Gustavo Scarpa. Scarpa es el jugador del Palmeiras que más tiros ha realizado y más ocasiones ha creado (ambos por cada 90 minutos en el campo) en la liga brasileña esta temporada y ha sumado tres goles (sin contar penaltis) y 11 asistencias. Asimismo, ha acumulado la cifra más alta de OBV por 90 entre todos los jugadores de la Serie A que han disputado al menos 900 minutos. Sin embargo, no ha jugado tanto en la Libertadores y es probable que empiece la final desde el banquillo. Con la baja probable de Luiz Adriano, lesionado, es probable que Rony sea el elegido para ocupar el puesto de delantero centro en una formación que podría variar entre un 4-2-3-1 y un 3-4-2-1 en línea con el posicionamiento de Felipe Melo, aún jugando a sus 38 años. En liga, Rony ha jugado más en banda que la temporada pasada, lo que ha supuesto una bajada consecuente en su producción de tiros y goles, pero es el máximo goleador del equipo en la Libertadores con seis goles, 0.78 por cada 90 minutos en el campo. En defensa, siguen las diferencias entre los equipos. El Flamengo no sólo defiende más lejos de su portería que cualquier otro equipo de la Serie A sino también figura entre los equipos más agresivos a la hora de intentar recuperar el balón, sobre todo tras pérdida. En cambio, el Palmeiras defiende más cerca de su portería que la media de la liga y es claramente menos activo en campo contrario. Dicho esto, ambos equipos parecen igualmente eficientes cuando se trata de convertir las recuperaciones de balón en ocasiones de gol. Ambos figuran entre los equipos que más tiros realizan y más goles marcan en los 20 segundos posteriores a una recuperación. El Flamengo y el Palmeiras ya se han enfrentado dos veces en la liga brasileña este año, y el ganador en ambas ocasiones ha sido el Flamengo. Dominó en una victoria por 1-0 en casa en el primer partido de la temporada y otra vez, por 3-1, en el estadio del Palmeiras hace dos meses en un encuentro que fue más igualado en cuanto a la cantidad y calidad de ocasiones. El Flamengo es el ganador más probable de la final, pero el Palmeiras, el campeón vigente, ya ha eliminado dos equipos brasileños para llegar a este punto y hará que sea un partido competitivo.

Hace tres semanas presentamos On-Ball Value (en adelante, OBV), nuestro nuevo modelo que mide el valor de cada acción en una posesión. Esta semana, vamos a dar algunos ejemplos del modelo en acción, utilizando principalmente los datos de la pasada temporada de La Liga.

Para tener todos los detalles del modelo hay que leer el artículo de presentación, pero de manera sencilla, OBV mide el cambio en la probabilidad de un equipo de marcar/conceder como resultado de una acción dada. Esto permite identificar las acciones más relevantes en una posesión y poder otorgar más mérito a las acciones con mayor impacto en la posesión.

Para visualizar un poco el concepto, aquí está la jugada del gol de Borja Iglesias del Real Betis contra el Osasuna en diciembre de 2020 con el valor de OBV marcado para cada acción de la jugada. Como es lógico, los valores aumentan a medida que la jugada se acerca al área de penalti del rival.

El siguiente gráfico también ayuda a explicar la utilidad del modelo. Se trata de los pases directamente previos a una asistencia o un pase clave, a veces llamados pre asistencias, en este caso pases rasos y con los pies. Muestra los 30 pases más valiosos de este tipo según OBV y también los 30 pases menos valiosos, pases que, de hecho, tuvieron un efecto negativo en la probabilidad de que marcara el equipo.

Aquí, el valor del modelo queda claro. En vez de simplemente decir que un jugador ha acumulado tres pre asistencias, por ejemplo, podemos otorgar un valor a cada una de ellas y tener una idea mucho más precisa de la contribución del jugador.

Vamos a echar un ojo a los números acumulados de la pasada temporada de La Liga a nivel de jugadores. ¿Qué jugadores de campo agregaron más valor con sus acciones con balón?

No es ninguna sorpresa que Messi agregara más valor que cualquier otro jugador de La Liga, pero hay otros nombres interesantes o quizás inesperados en la lista como Toni Suárez del Real Valladolid. Aparte de Messi, Suárez fue el jugador que agregó más valor mediante conducciones. Aquí son sus 30 conducciones más valiosas de la temporada.

Tenemos la posibilidad de filtrar los resultados del modelo así para encontrar los jugadores que acumulan más OBV en distintos escenarios. Por ejemplo, si eliminamos del cálculo las acciones que tienen una relación directa con los tiros (los tiros en sí, las asistencias y los pases claves), otro nombres salen a relucir, sobre todo el de Kieran Tripper del Atlético Madrid.

Podemos filtrar por varias cosas: tipo de acción, localización en el campo, posición del jugador, etc… Aquí, echamos un ojo a los centrales que agregaron más valor con sus pases y conducciones en campo propio.

Sergio Ramos agregó más valor que cualquier otro central mediante pases, mientras que Gerard Piqué encabezó la lista en cuanto a conducciones. Pau Torres del Villarreal sobresalió en ambas acciones, sumando más OBV por 90 que cualquier otro central. Hemos marcado también a los dos centrales cuyas acciones tuvieron un efecto negativo: las conducciones en el caso de Marc Bartra del Real Betis y los pases en el de Esteban Burgos del Eibar.

OBV también proporciona un marco para poder empezar a evaluar el riesgo/recompensa en la toma de decisiones de los jugadores. Por ejemplo, podemos analizar a los jugadores que intentan más pases que mueven el balón más cerca de la portería en el último tercio del campo y ver la relación entre su porcentaje de acierto en estos pases y el valor de OBV por pase.

José Gayá del Valencia sobresale. Tiene un porcentaje de acierto bajo, de un 51.39%, pero el valor medio de sus pases, aun con los pases fallidos y sus correspondientes valores de OBV incluidos en el cálculo, es muy alto, lo que sugiere que agrega valor a pesar de su bajo porcentaje de acierto. Otros jugadores con porcentajes de acierto parecidos no aportan el mismo valor.

Vinícius Júnior es el único jugador entre los 40 que más pases de este tipo intentaron que tuvo un valor de OBV por pase negativo. Es decir que en suma sus pases de este tipo redujeron la posibilidad de que marcara el Real Madrid/aumentaron la posibilidad de que marcaran sus rivales.

El modelo también tiene utilidad en el análisis de equipos. Por ejemplo, podemos visualizar las zonas del campo desde las que generan más peligro respecto a la media de la liga.

Así podemos ver que la temporada pasada, el Barcelona fue mucho más activo en zonas centrales del último tercio que otros equipos de La Liga. O que el Sevilla principalmente generó peligro por la banda derecha o que el Eibar jugó mucho por las bandas y casi nunca hizo daño a sus rivales desde zonas centrales o que el Cádiz y el Elche jugaron muy directo. En el gráfico se esconden muchas historias.

Asimismo, podemos emplear filtros para encontrar los equipos que acumularon más OBV, como un porcentaje de su total, por distintos tipos de acción:

  • Pases altos: el Eibar, el Getafe y el Osasuna
  • Conducciones: el Huesca, el Villarreal y el Athletic Club
  • Pases al primer toque: el Eibar, el Levante y el Barcelona
  • Intercepciones: el Granada, el Cádiz y el Osasuna
  • Pases filtrados: el Villarreal, el Barcelona y el Celta Vigo

La mejor noticia es que OBV no es sólo para las grandes ligas de Europa. Este modelo de vanguardia está disponible en todas las más de 80 competiciones que cubrimos a lo largo del mundo. Podemos analizar las mismas cosas en La Liga que en la Liga MX de México…

o la Primera División de Perú…

o incluso la J1 League de Japón.

Tenemos muchas ganas de ver cómo nuestros clientes sacan provecho del modelo porque OBV abre muchas posibilidades de análisis, incluyendo muchas que aún están por descubrir. Y OBV es sólo la primera de muchas novedades que pronto llegarán a StatsBomb Data.


¿Quiere saber más? Un miembro de nuestro equipo de expertos le puede demostrar todas las ventajas de los datos de StatsBomb, los mejores y más detallados de la industria https://statsbomb.com/es/contact/

El fútbol siempre ha ido de números. La pura naturaleza del juego consiste en contar cosas, como qué equipo consigue más goles. Después de contar goles, se pasó a contar los remates, y con eso se pasó a medir la calidad de esos tiros.   El siguiente paso obvio era tratar de medir la calidad de las ocasiones que precedían a esos tiros, y yendo más allá tratar de medir cómo el resto de acciones previas a la asistencia influyen en la calidad de las ocasiones posteriores. Existen diferentes tipos de modelos, a los cuales nos referimos en general como Possession Value, que tratan de medir el valor de cada acción en una posesión.

De manera sencilla, los modelos de Possession Value (en adelante PV) miden el cambio en la probabilidad de un equipo de marcar/conceder como resultado de una acción dada. Inicialmente, esto permite identificar las acciones más relevantes en una posesión (o cambios de estado más formalmente) y poder otorgar más mérito a las acciones con mayor impacto en la posesión. Esto también proporciona un marco para poder evaluar de manera apropiada el coste de oportunidad el riesgo/recompensa en la toma de decisiones de los jugadores (con balón). Por ejemplo, jugadores que asumen mucho riesgo en sus acciones tenderán a perder el balón más veces, pero el efecto neto de sus acciones puede ser positivo. El primer modelo público con datos de evento de PV es el de Sarah Rudd en 2012 — cabe mencionar que Charles Reep en 1997 desarrolló un modelo seminal que podría ser considerado de PV.

En 2021, presentamos el nuestro: On-Ball Value (en adelante, OBV). Nuestros clientes ya tenían acceso a este modelo, ahora lo presentamos al público general. Existen numerosas razones por la que nuestra metodología y por ende los resultados que arroja el modelo representan una mejora respecto a modelos previos:

Nuestro modelo está entrenado con nuestro modelo de goles esperados, StatsBomb xG

Otros modelos utilizan los goles como muestra de entrenamiento. Emplear los xG para estimar los goles nos permite entrenar los modelos de manera más precisa con la misma cantidad de datos pero reduciendo la varianza y la “class imbalance” inherente a utilizar sólo los goles como variable dependiente. Existen otros enfoques que también emplean los xG, sin embargo, ninguno de ellos emplea los xG de StatsBomb, el modelo más preciso que existe.

Hemos optado por entrenar dos modelos diferentes para los componentes Goles Marcados y Goles Concedidos del modelo

Esto representa un enfoque distinto a la mayoría de los demás. Esto nos permite identificar el impacto de cada acción en la probabilidad de marcar y conceder de manera separada para así poder ver el efecto en la contribución ofensiva y defensiva de cada acción en lugar de utilizar simplemente el efecto neto (i.e. Diferencia de Goles).

Hemos decidido no otorgar mérito a los receptores de los pases

Mientras que es obvio que ser capaz de recibir y mantener la posesión en espacios reducidos, consideramos que depende en gran medida del movimiento sin balón. Esto es complicado de cuantificar con datos de evento.

Así, desde la perspectiva de la posición del balón y los datos de evento, no hay un valor intrínseco en la recepción que no esté mejor representado por la acción subsiguiente del receptor. Es decir, si no podemos cuantificar el movimiento previo, el valor de la recepción está representado por el valor de la acción que realiza el jugador.

Características relativas al estado de la posesión

Nuestra decisión ha sido incluir información relativa a la localización en el campo (coordinadas x/y, distancia y ángulo a portería, etc), contexto de la acción (balón parado, juego dinámico, etc) y si la acción se realizó bajo presión de un oponente (sí, esto también es una característica exclusiva de los datos de StatsBomb), entre otros. Sin embargo, hemos decidido a propósito no incluir información sobre la “historia de la posesión”.

Con esto nos referimos a información relativa a los eventos previos en la posesión. Es decir, no queremos que el modelo sepa qué ha ocurrido antes de la acción concreta que está evaluando. Mientras que esto puede parecer trivial tiene verdadera relevancia en la metodología – y como siempre que se trata de números y modelos el diablo está en los detalles – y por tanto en los resultados del modelo. Vamos a explicarlo: La información relativa a la historia de la posesión suele ser incluida con el argumento de que actúa como proxy de aspectos que no podemos tener de manera explícita en los datos de evento, por ejemplo la posición de los atacantes o de los oponentes. Sin embargo, en la práctica la gran mayoría de esta información se correlaciona de manera muy fuerte con el estilo de juego del equipo y con el “team strength” (el nivel global de los equipos).

Modelos previos empleando información de la historia de la posesión sobrevaloran los pases que se realizan en posesiones largas, dado que normalmente los mejores equipos tienen posesiones más largas que los equipos más débiles. Así, nuestro enfoque se asegura de que cada evento es evaluado de manera independiente al resto.

Bueno, ya vale explicaciones, vamos con algunos ejemplos

A continuación se pueden ver el Top 20 de las cinco grandes ligas desde la 2016-2017. Los números representan la diferencia de goles agregada de todas las acciones del jugador por cada 90 minutos en el campo.

¿Lionel Messi encabeza la lista? Tick. ¿Neymar y Kylian Mbappé justo detrás? Tick. ¿Aritz Aduriz mejor rematador del mundo? Bueno, ningún modelo es perfecto…

Esto es sólo la puntuación global. Podemos ser mucho más específicos e ir al detalle dividiendo la contribución por tipo de acción. Aquí están los diez mejores jugadores en cuanto a OBV mediante conducciones en las cinco grandes ligas europeas la temporada pasada.

Anteriormente, podíamos analizar la cantidad y la longitud de las conducciones, así como las zonas del campo en las se realizaban, pero OBV nos permite asignar un valor más sutil a cada una de las conducciones y así formarnos una idea más clara de los jugadores que están generando valor con sus conducciones. Hay muchas más cosas que podemos hacer con los resultados de este nuevo modelo. Podemos separarlo por tipo de acción (conducción, pase, tiro, etc) o filtrar por posición para comparar a los jugadores en cada posición entre sí.

Incluso podemos hacer un análisis a nivel de equipos para encontrar respuestas a preguntas del tipo: ¿Desde qué zonas del campo están creando más valor? ¿Cuáles de sus pases son más valiosos? ¿Crean más valor mediante las conducciones o los pases? La mejor noticia es que este modelo de vanguardia está disponible en más de 80 competiciones a lo largo del mundo con el mismo nivel de detalle y precisión.

No todos los clubes del mundo tienen la capacidad de desarrollar in-house modelos de este tipo, por eso nos preocupamos de darles las herramientas necesarias para competir con los mejores. No podemos terminar sin reconocer el trabajo del equipo de Data Science de StatsBomb, no sólo por haber desarrollado este modelo sino porque este modelo es la primera de muchas novedades que pronto llegarán a StatsBomb Data.


¿Quiere saber más? Un miembro de nuestro equipo de expertos le puede demostrar todas las ventajas de los datos de StatsBomb, los mejores y más detallados de la industria https://statsbomb.com/es/contact/