¿Cómo se evalúa un equipo en Overwatch? Nos encontramos ante un problema que tanto fanáticos como expertos han intentado resolver durante el transcurso de la temporada inaugural de la Liga Overwatch. ¿Juzgas a un equipo por su potencial para luego decepcionarte si no consigue alcanzar las expectativas? ¿O acaso evalúas a un equipo en base a su desempeño previo, indistintamente de si fue bueno o malo? La incógnita de cómo evaluar a los equipos es algo que intentaremos responder con la introducción del sistema de puntuación Elo de la Liga Overwatch (EOWL).

El sistema de puntuación Elo fue creado originalmente por un hombre llamado Arpad Elo para medir la fortaleza de los jugadores de ajedrez a lo largo del tiempo. El sistema permite medir la fortaleza relativa de los oponentes de una manera que toma en cuenta su nivel actual y sus resultados anteriores. Los sistemas de puntuación Elo se rigen por el principio de suma cero: el promedio y la cantidad total de Elo en el sistema nunca se modifican. Este principio implica que la cantidad de Elo que obtendrá el ganador será equivalente a la cantidad de Elo que perderá el derrotado, sin importar la brecha de puntuación Elo entre los dos equipos competidores.

*En el caso del EOWL, los equipos comenzarán con 1,000 de Elo.

Mantener un sistema básico de Elo es una cuestión de matemática básica: lo único que necesitas es un punto de partida* y un factor de escala “K”, donde K es un multiplicador que establece cuánto Elo se gana o se pierde luego de un encuentro. A mayor K, más rápido se gana o se pierde Elo a lo largo del tiempo, de modo que el sistema se vuelve más volátil. A veces, se desea un sistema más volátil, a veces, uno menos volátil. Por ejemplo, algunos sistemas de ajedrez utilizan una puntuación Elo por niveles, la cual utiliza valores diferentes de K para niveles de habilidad diferentes. De esta manera, los nuevos jugadores de ajedrez reciben ayuda para alcanzar su nivel de habilidad real más rápido, mientras que los jugadores de la categoría "Gran Maestro", quienes poseen una trayectoria arraigada en el ámbito competitivo, no son tan susceptibles a los cambios bruscos.

Ese es tan solo un ejemplo del grado en que se pueden personalizar los sistemas de puntuación Elo. FiveThirtyEight, el sitio de estadísticas de deporte y elecciones, tiene sistemas personalizados de puntuación Elo para la Liga Nacional de Fútbol Americano (NFL) y la Asociación Nacional de Baloncesto (NBA) que apuntan a mejorar modelos de puntuación Elo más simples para representar con mayor precisión la fortaleza de los equipos. Me basé en aquellos dos sistemas de puntuación Elo para crear el EOWL.

Ahora que ya hablamos sobre K, uno de los parámetros de los sistemas de puntuación Elo, es hora de tomar en cuenta otros aspectos personalizables.

Ajustes entre fases

La Liga Overwatch se encuentra dividida en fases y, en cada una de ellas, se juega en un parche completamente diferente. La NBA y la NFL tienen que lidiar con el recambio y la transferencia de jugadores tanto durante temporadas como entre ellas. Por este motivo, FiveThirtyEight realiza correcciones ligadas a las temporadas. Overwatch no solo tiene un criterio similar para los cambios, adquisiciones y rescisiones, solo que, durante todo esto, el juego evoluciona. Por tanto, el EOWL debe dar cuenta de los cambios en la fase.

En mi modelo, la solución de FiveThirtyEight encajó a la perfección. Cuando la temporada cambia, ellos solo toman una fracción del Elo de la temporada anterior. Por ejemplo, en su modelo de la NBA, transfieren el 75% del Elo de la temporada anterior. A los efectos de esta publicación, llamaré a esta variable desconocida “Tasa de ajuste entre fases” o TAF.

¿De qué granularidad me hablas?

A la hora de calcular las nuevas puntuaciones del EOWL, tuve que decidir cuán a menudo actualizaría los resultados. La NBA, la NFL y el ajedrez tienen partidos, mientras que la Liga Overwatch tiene encuentros compuestos de mapas. ¿Debería actualizar el EOWL de un equipo únicamente al completarse un encuentro? ¿O debería hacerlo luego de cada mapa? A la hora de abordar la cuestión, tuve los siguientes aspectos en cuenta:

  1. No hubo encuentros suficientes para calcular un nuevo EOWL.
  2. No todos los encuentros son iguales (un resultado 4-0 no es igual a uno 3-2).
  3. Incluso si optara por hacer los cálculos en base a los mapas, sería imposible que una victoria 3-2 otorgara más Elo al perdedor, debido al principio de suma cero del sistema de puntuación Elo.

Por tanto, todo nuevo EOWL se calcula luego de cada mapa jugado por cada equipo.

Margen de victoria (MdV)

No todos los encuentros son iguales, así como tampoco lo son los mapas. Ambos sistemas de puntuación Elo de FiveThirtyEight dan cuenta del margen de victoria en los resultados del juego aplicando un multiplicador a la variable K. De esta manera, K se convierte en una variable dinámica que establece cuán inesperada o aplastante fue la victoria de un equipo. El cálculo del MdV de FiveThirtyEight parece ser una salsa secreta: se llega a un resultado, pero la explicación paso a paso deja mucho que desear. Más allá de lo anterior, puedo decir con certeza que FiveThirtyEight creó una función logarítmica que recompensa cada vez menos a aquellos equipos que se encuentran en la cima de la tabla, pero una victoria aplastante tiene mayor valor en el MdV que un encuentro reñido.

Aquí es cuando las cosas se ponen complicadas para nosotros en Overwatch. El baloncesto y el fútbol americano siempre cuentan con valores de MdV establecidos y comprensibles porque, salvo en las situaciones de tiempo adicional, todos los partidos tienen la misma duración. Durante la temporada inaugural de la Liga Overwatch, hubo mapas que duraron desde un mínimo de 6 minutos y 22 segundos hasta más de 37 minutos. Además, dependiendo de cuál fue el equipo que atacó primero, los resultados pueden ser poco fiables. Bien podría decirse que una victoria 1-0 defendiendo primero es igual de sorprendente o incluso más sorprendente que una victoria 3-0 atacando primero. Por este motivo, no podía utilizar la diferencia de puntos como parámetro para el MdV y tuve que buscar un criterio estadístico que midiera con precisión cuán arrolladora era una victoria, más allá de la duración del encuentro.

A decir verdad, no tuve mucho éxito. Conseguí establecer un conjunto de criterios estadísticos invariables al tiempo que predijeron el ganador del 94% de los mapas jugados en la Liga Overwatch. Así y todo, hubo algunas situaciones atípicas: en algunos casos, los cálculos condujeron a que un equipo sería superior a su rival, pero a la hora del encuentro real el resultado fue el opuesto. Dado que Overwatch es un juego de objetivos, entendí que este fenómeno ocurriría ocasionalmente.

Para resolver esta situación, cada vez que el MdV del ganador resultaba inferior al del perdedor, invertía los valores: si un equipo perdía en la teoría, pero ganaba en la práctica, dicho equipo merecía llevarse el botín de su oponente. Luego, apliqué mi propia “salsa secreta” de las estadísticas del MdV a la función logarítmica que multiplica los encuentros reñidos por 0.75, las victorias aplastantes por aproximadamente 1.5 y las palizas increíblemente ridículas (muy poco frecuentes) por aproximadamente 3. Aproximadamente el 79% de los encuentros tuvieron un multiplicador del MdV de 1, con un margen de ±0.25.

La parte divertida: la elección de los valores para los parámetros

La fórmula final para el EOWL fue la siguiente:

Nuevo Elo = Elo viejo + MdV * K * (Resultado actual – Resultado esperado)

La excepción a aquella fórmula sería en el caso de que hubiera un cambio de fase. En dicho caso, el EOWL de la nueva fase se calcularía de la siguiente manera:

Nuevo Elo = Elo viejo * TAF + 1000 * (1-TAF)

¿Pero cómo sabría qué valor utilizar para K o TAF? Hasta aquel momento, no me había detenido a delimitar el valor puntualmente. Para no elegir al azar, ¡probé con todos los valores posibles! En el caso de K, me enfoqué en el intervalo ubicado entre los valores 5 y 24, pero también hice pruebas entre los valores 25 y 50. Más adelante, podrán ver cómo los diferentes valores de K y TAF modifican la progresión del EOWL durante el transcurso de la temporada inaugural de la Liga Overwatch. Primero, les presento una combinación modesta, donde K = 10 y TAF = 0.5:

ct5k10.png
Progresión del Elo de la Liga Overwatch por cantidad de encuentros

El gráfico permite visibilizar la progresión del EOWL por cantidad de encuentros durante el transcurso de la temporada, donde cada EOWL se encuentra calculado en el nivel del mapa. A simple vista podemos observar las tendencias generales de la temporada. Por ejemplo, hasta la fase 3, NYXL y London dominaron la liga. La fase 3 fue el punto más alto de NYXL, pero el equipo decayó rápidamente e incluso perdió su estatus de n.º 1 a manos de Valiant. Dragons, Mayhem y Fuel cayeron rápidamente en cada fase, pero Fuel fue capaz de volver a escalar puestos y finalizar la fase 4 cerca de la mitad de la tabla de posiciones, un resultado que se vio perjudicado por su desempeño previo.

Ahora, comparemos este resultado con un gráfico donde K = 24 y TAF = 1 (K es más volátil, sin ajustes entre fases):

CT1K24.png
Progresión del Elo de la Liga Overwatch por cantidad de encuentros

Un valor superior en K conlleva una mayor volatilidad, la cual se ve claramente reflejada en el ascenso de Fuel y el descenso de NYXL en la fase 4. Además, los equipos como Shanghai se vieron cada vez más enterrados en el fondo de la tabla en comparación a sus pares de nivel más alto, una situación que tuvo un efecto notable en las expectativas de victoria.

Jugar con gráficos geniales es muy divertido, pero, ¿cómo hago para saber si mi modelo del EOWL es preciso? Para evaluar los distintos parámetros, acudí a la puntuación de Brier, la cual mide la precisión de los resultados probabilísticos. Dado que los sistemas de puntuación Elo calculan la expectativa de victoria de manera inherente, ya tenía probabilidades para evaluar. Cuanto menor fuera la puntuación de Brier, mayor precisión. Lo siguiente fue graficar la puntuación de Brier promedio para cada combinación K/TAF:

rawrbrier.png
Puntuaciones de Brier promedio para cada combinación K/TAF

La mejor puntuación de Brier surgió utilizando los valores más bajos de K (5) y TAF (0.1), resultado visible en la esquina superior izquierda de la tabla anterior. Además, incluí la puntuación de Brier promedio de cada equipo utilizando los valores K = 24 y TAF = 1 (más volátil, sin ajustes entre fases) y la puntuación de Brier mínima:

brier ct1k24.png
Puntuaciones de Brier

brier ct1k5.png
Puntuaciones de Brier

Si seguimos las puntuaciones de Brier, a menor valor K, más precisas parecen ser las predicciones. Si comparamos estos dos gráficos, podemos observar las diferencias gracias al desempeño de New York y los dos mejores tercios de la liga. Si bien utilizar un valor elevado de K colocó a Dragons, Mayhem y Fuel con rapidez y precisión en el fondo de la tabla, cuando dichos equipos consiguieron obtener victorias de mapas ante equipos como NYXL, la puntuación de Brier promedio de la liga se vio afectada. Como resultado, las predicciones de expectativas de victoria se volvieron más conservadoras en comparación a los modelos más volátiles. Ahora, echemos un vistazo a la progresión del EOWL durante el transcurso de la temporada utilizando nuestros parámetros “ideales”:

CT1k5.png
Progresión del Elo de la Liga Overwatch por cantidad de encuentros

Como podrán observar, volvieron a aparecer los mismos altibajos, pero, en cada fase, los equipos comenzaron mucho más cercanos entre sí, lo cual condujo a que ganaran o perdieran su puntuación EOWL de manera más lenta. Dado que los valores ideales de K y TAF son tan bajos, la Liga Overwatch debió haber sido increíblemente impredecible al comienzo de cada fase. Sin embargo, al acercarse al final, las posiciones relativas de los equipos quedarían establecidas de manera justa. ¡Se trata de un fenómeno que podemos verificar incluso a primera vista! Dicha impredecibilidad me lleva a mi conclusión final:

Nadie podría haber predicho que London ganaría el campeonato de la temporada inaugural de la Liga Overwatch.

Rumbo a las eliminatorias, si hubiera utilizado mi modelo del EOWL para seleccionar al campeón, los cálculos me habrían conducido a pronosticar un encuentro final a disputarse entre Valiant y NYXL, con Valiant supuesto campeón. En lugar de ello, el sexto equipo más poderoso de la fase 4 (Fusion) se enfrentó al cuarto equipo más débil (Spitfire) en un encuentro donde el equipo con menor EOWL resultó vencedor. Ambos equipos habían alcanzado su punto más alto en la primera mitad de la temporada, de modo que ya sabíamos cuán buenos podían llegar a ser, pero a medida que avanzó la temporada fueron decayendo a causa de lesiones, problemas en el liderazgo y golpes anímicos.

Al final, los únicos que sabían cuán buenos eran London y Philadelphia en el nuevo parche eran... London y Philadelphia.

Bien podría agregarle todas las variables que quisiera al sistema del EOWL, pero jamás podría revelar la causa detrás de un problema en el desempeño durante varias fases: tan solo podría dar cuenta de que primero hubo un descenso en el desempeño. El sistema tampoco puede predecir que un equipo tendrá una caída repentina luego de haber dominado durante tres fases, sino apenas cuánto ha decaído y cuándo comenzó el fenómeno. Los sistemas de este tipo no pueden medir hasta dónde puede llegar un equipo, ya que no hay manera alguna de adaptarse al “potencial del equipo”.

A pesar de todo, los sistemas de puntuación Elo son grandiosos para registrar la historia de las ligas de manera numérica. La temporada inaugural tuvo sus altibajos, desde el pico del dominio de NYXL hasta el improbable retorno de Spitfire. Algunos equipos alcanzaron su punto más alto demasiado temprano, otros durante la mitad de la temporada, mientras que otros lo hicieron demasiado tarde. Fue esta impredecibilidad la que convirtió a cada fase en algo único, atrapante y memorable. Ahora, tenemos los números para demostrarlo.

Ben "CaptainPlanet" Trautman es el encargado de las estadísticas de la Liga Overwatch.