¿Cómo se evalúa a un equipo de Overwatch? Es un problema que tanto los fans como los expertos han intentado afrontar a lo largo de la temporada inaugural de la Overwatch League. ¿Es buena idea juzgar a un equipo por su potencial para luego quedar decepcionado si no lo materializa? ¿O es mejor evaluar a un equipo en función de su rendimiento previo, ya sea bueno o malo? A continuación, voy a tratar de dar respuesta a la cuestión de la evaluación de los equipos con la introducción del sistema de puntuación Elo de la Overwatch League (EOL).

El sistema de puntuación Elo fue creado por un hombre llamado Arpad Elo para medir el potencial de los jugadores de ajedrez a lo largo de un período. Permite calibrar el nivel relativo de los oponentes de un modo que tiene en cuenta su nivel actual y sus resultados previos. Los sistemas Elo son de suma cero: el promedio y la cantidad total de Elo del sistema nunca deben cambiar. Esto significa que, independientemente de la distancia en puntuación Elo entre dos equipos rivales, la cantidad de Elo que se lleva el ganador es equivalente a la que cede el perdedor.

* En el EOL, todos los equipos comienzan con 1000 de Elo.

Los sistemas básicos de Elo utilizan matemáticas básicas: tan solo requieren un punto inicial* y un factor de progresión «K». K es un multiplicador que determina cuánto Elo se gana y pierde tras un encuentro determinado. Cuanto mayor sea K, más rápido se gana y pierde Elo con el tiempo, y más volátil se vuelve el sistema. A veces es bueno contar con un sistema volátil; otras, es mejor lo contrario. Por ejemplo, algunos sistemas de ajedrez emplean un Elo con categorías que utiliza diferentes valores para K en distintas categorías de habilidad. Esto contribuye a que los nuevos jugadores alcancen su índice de habilidad real con mayor rapidez, mientras que los jugadores de nivel gran maestro, que cuentan con un historial competitivo más consolidado, no son tan propensos a sufrir grandes vaivenes.

Este es tan solo un ejemplo del enorme grado de personalización de los sistemas Elo. FiveThirtyEight, un sitio web de estadísticas sobre deportes y elecciones, dispone de sistemas Elo personalizados para la NFL y la NBA que buscan mejorar los modelos Elo más sencillos para representar con mayor precisión la fortaleza de los equipos. Estos son los sistemas Elo en los que me he basado para crear el EOL.

Ya he hablado sobre un parámetro de los sistemas Elo (K), pero vamos a hablar de otras formas de personalización.

Acarreo de fase

La Overwatch League tiene fases y, lo que es más importante, cada una se disputa con un parche del juego completamente distinto. La NBA y la NFL tienen que lidiar con traspasos e intercambios de jugadores durante las temporadas y entre ellas; eso es lo que motivó a FiveThirtyEight a realizar correcciones por temporada. En Overwatch, no solo se intercambian, adquieren y quedan libres los jugadores, sino que, además, el juego evoluciona con el tiempo. Por ello, el EOL debe tener en cuenta los cambios de fase.

La solución de FiveThirtyEight es perfecta para mi modelo. Cada vez que se cambia de temporada, solo conserva una parte del Elo de la temporada anterior (en su modelo para la NBA, un 75 % del Elo). Para este experimento, voy a dejar este valor como variable desconocida llamada «acarreo de fase» (AF).

¿Con qué granularidad?

Al calcular nuevos índices de EOL, tuve que decidir con qué frecuencia quería llevar a cabo las actualizaciones. La NBA, la NFL y el ajedrez tienen partidos, mientras que la Overwatch League tiene encuentros compuestos por mapas. ¿Debería actualizar el EOL de un equipo solo tras el término de un encuentro o después de cada mapa? Para decidirlo, tuve en cuenta los siguientes elementos:

  1. No se jugaron suficientes encuentros como para calcular un nuevo EOL.
  2. No todos los encuentros son iguales (un 4-0 no es lo mismo que un 3-2).
  3. Incluso si me decidiera por usar los mapas, es imposible que una victoria por 3 a 2 haga que el perdedor del duelo obtenga más Elo, debido a la naturaleza de suma cero del Elo.

Por tanto, cada nuevo EOL se calcula cada vez que un equipo completa un mapa.

Margen de victoria (MV)

No todos los encuentros son iguales, ni todas las victorias en mapas son idénticas. Los sistemas Elo de FiveThirtyEight tienen en cuenta el margen de victoria en los resultados de los partidos, como multiplicador de K. De este modo, se crea una K dinámica que determina hasta qué punto la victoria de un equipo ha sido una sorpresa... o una paliza. El cálculo del MV de FiveThirtyEight parece tener una fórmula secreta: está definido, pero mal explicado. Lo único que puedo asegurar es que crearon una función logarítmica que otorga cada vez menos puntos cuanto más abultado es el resultado, pero un triunfo por paliza sigue siendo más valioso en cuanto a MV que un duelo reñido.

Aquí es donde la cosa se complica para Overwatch. El baloncesto y el fútbol americano siempre disponen de MV fijos y comprensibles porque, salvo en caso de prórroga, todos los partidos tienen la misma duración. Durante la temporada inaugural de la Overwatch League, los mapas se prolongaron desde un mínimo de 6 minutos y 22 segundos hasta más de 37 minutos. Además, en función del equipo que ataca primero, los resultados pueden no ser fiables. Podría argumentarse que una victoria por 1 a 0 tras defender en primer lugar es tan meritoria como una victoria por 3 a 0 tras atacar en primer lugar, si no más. Por tanto, no podía usar el diferencial de puntos de captura como MV, y debía hallar una estadística de MV que midiese con exactitud en qué medida una victoria es una paliza, con independencia de la duración del encuentro.

No tuve éxito del todo. Logré determinar un conjunto de estadísticas que, independientemente del tiempo, lograban predecir el vencedor en un 94 % de los mapas jugados en la Overwatch League. Había algunas excepciones en las que el perdedor jugaba mejor que el vencedor sobre el papel, pero, aun así, acababa perdiendo el encuentro. Puesto que Overwatch es un juego de objetivos, mi razonamiento fue que eso era algo que estaba destinado a suceder de vez en cuando.

Para dar respuesta a este problema, cada vez que el MV del ganador era menor que el del perdedor, yo les daba la vuelta a los valores: si un equipo pierde sobre el papel pero gana el mapa, se merece el botín de su oponente. Entonces encajé mi «fórmula secreta» de estadísticas de MV en una función logarítmica que multiplica los duelos igualados por 0,75, las victorias abultadas por aproximadamente 1,5 y las palizas absolutamente increíbles (poco frecuentes) casi por 3. Alrededor de un 79 % de los enfrentamientos acabaron con un multiplicador de MV de 1, más menos 0,25.

La parte divertida: selección de valores paramétricos

Mi formula definitiva de EOL terminó siendo así:

Nuevo Elo = Antiguo Elo + MV * K * (Resultado real – Resultado esperado)

A menos que se produjera un cambio de fase, en cuyo caso el EOL de la nueva fase se calcularía del siguiente modo:

Nuevo Elo = Antiguo Elo * AF + 1000 * (1 - AF)

Pero ¿cómo sé qué K o AF debo utilizar? Hasta ahora, los había dejado sin definir. En lugar de elegir algunos valores al azar, ¡probé con todos! En concreto, me centré en un intervalo entre 5 y 24 para K, pero también probé valores de K entre 25 y 50. A continuación podéis ver cómo cambian los diferentes valores de K y AF la progresión del EOL a lo largo de la temporada inaugural de la Overwatch League. En primer lugar, una combinación intermedia de K = 10 y AF = 0,5:

ct5k10.png
Progresión del EOL de la Overwatch League por enfrentamientos

El gráfico representa la progresión del EOL por enfrentamientos a lo largo de la temporada, con cada EOL calculado en función de los mapas. Podemos detectar tendencias temporales generales que coinciden con un análisis a ojo. Por ejemplo, hasta la tercera fase, la liga estaba dominada por los NYXL y los London. La tercera fase marcó la cúspide de los NYXL, pero luego se desplomaron rápidamente e incluso perdieron el puesto número uno en favor de los Valiant. Los Dragons, los Mayhem y los Fuel cayeron con rapidez al comienzo de cada fase, pero los Fuel fueron capaces de remontar y acabar la cuarta fase en la zona media de la tabla, lastrados por sus resultados anteriores.

Comparémoslo ahora con K = 24 y AF = 1 (una K más volátil y sin ningún tipo de corrección por cambio de fase):

CT1K24.png
Progresión del EOL de la Overwatch League por enfrentamientos

Un valor más elevado de K implica mayor volatilidad, algo que se aprecia perfectamente en el ascenso y la caída de los Fuel y los NYXL, respectivamente, en la cuarta fase. Además, equipos como los Shanghai se encontraban cada vez más alejados de sus rivales de las cotas más altas de la clasificación, algo que tuvo un efecto notable en sus expectativas de victoria.

Juguetear con gráficos chulos es divertido, pero ¿cómo puedo saber qué grado de precisión tiene mi modelo de EOL? Para evaluar los distintos parámetros, recurrí a las puntuaciones Brier, que califican la exactitud de resultados probabilísticos. Como los sistemas Elo calculan de forma inherente la expectativa de victoria, ya contaba con probabilidades que calificar. En el sistema Brier, una puntuación más baja es mejor. Tracé la puntuación Brier media para cada combinación K/AF:

rawrbrier.png
Puntuación Brier media para cada combinación K/AF

La mejor puntuación Brier resultó ser el mínimo de K (5) y AF (0,1), como se puede apreciar en la esquina superior izquierda de la tabla anterior. Además, aquí os dejo la puntuación Brier media de cada equipo cuando K = 24 y AF = 1 (más volátil y sin corrección por cambio de fase) y la puntuación Brier mínima:

brier ct1k24.png
Puntuaciones Brier

brier ct1k5.png
Puntuaciones Brier

Con las puntuaciones Brier, cuanto menor es la K, más precisas parecen ser las predicciones. Al comparar estos dos gráficos, podemos comprobar que se debe principalmente a los New York y a los dos tercios superiores de la liga. Aunque un valor elevado de K envía con rapidez y acierto a los Dragons, los Mayhem y los Fuel a las posiciones inferiores, las situaciones en las que estos equipos lograron llevarse mapas ante equipos como los NYXL afectan a la puntuación Brier media de la liga. Como consecuencia, las predicciones sobre expectativas de victoria se vuelven más conservadoras en comparación con modelos más volátiles. Observemos ahora la progresión del EOL a lo largo de la temporada con nuestros parámetros «ideales»:

CT1k5.png
Progresión del EOL de la Overwatch League por enfrentamientos

Aparecen los mismos picos y valles, pero, en cada fase, los equipos empiezan mucho más agrupados y ganan y pierden puntuación EOL a un ritmo algo menor. Como los valores ideales de K y AF son tan bajos, la Overwatch League tiene que haber sido enormemente impredecible al comienzo de cada fase, pero, al final, las posiciones relativas de los equipos fueron justas. Esto es bueno: ¡coincide con un análisis a ojo! Esta imposibilidad de predecir me lleva a mi conclusión final:

Nadie podría haber vaticinado que los London ganarían el campeonato inaugural de la Overwatch League.

Antes de las eliminatorias, si hubiera utilizado mi modelo de EOL para elegir un campeón, me habría decidido por una final entre los Valiant y los NYXL en la que vencerían los primeros. En cambio, el sexto mejor equipo de la cuarta fase (los Fusion) se enfrentó al cuarto peor equipo (los Spitfire), y el equipo con menor EOL se llevó el campeonato. Ambos equipos habían llegado alto en la primera mitad de la temporada, por lo que sabíamos de su potencial, pero pedieron fuelle a medida que transcurría la temporada, aquejados por las lesiones, una falta de dirección o la frustración.

Al final, los únicos que sabían lo buenos que serían los London y los Philadelphia en el nuevo parche eran... los London y los Philadelphia.

Da igual cuánta parafernalia le añada a mi sistema de EOL: no puede descubrir el motivo por el que un equipo no rinde a lo largo de varias fases, solo constatar que se ha producido ese bajón de rendimiento. Tampoco es capaz de pronosticar qué equipos van a desplomarse de repente tras tres fases dominantes, solo cuánto se han desplomado y cuándo empezaron a hacerlo. Sistemas como este no permiten determinar de lo que es capaz un equipo porque no es posible incluir la variable del «potencial».

Sin embargo, los sistemas Elo son magníficos para cuantificar la historia de las ligas. La temporada inaugural tuvo sus altibajos, desde la cúspide del dominio de los NYXL hasta la inverosímil recuperación de los Spitfire. Unos equipos alcanzaron su máximo potencial pronto, otros después y algunos demasiado tarde. Esta impredecibilidad es la que hizo que cada fase fuera única, interesante y memorable. Y ahora contamos con datos estadísticos para demostrarlo.

Ben «CaptainPlanet» es el productor de estadísticas del equipo de retransmisión global de la Overwatch League.