Como você avalia uma equipe em Overwatch? É um problema que tirou o sono tanto de fãs quanto de especialistas durante a temporada inaugural da Liga Overwatch. Você julga uma equipe pelo seu potencial e acaba se decepcionando quando ela não consegue atingi-lo? Ou você avalia uma equipe de acordo com os desempenhos anteriores, bons e ruins? Tentarei responder a essa questão da avaliação das equipes apresentando um sistema de classificação Elo da Liga Overwatch (OLE).

O sistema de classificação Elo foi criado originalmente por um cara chamado Arpad Elo para medir a competência de jogadores de xadrez ao longo do tempo. Ele mede a força relativa dos adversários de uma forma que leva em consideração seu nível atual e os resultados anteriores. Os sistemas Elo são de soma zero: a média e a quantidade total de Elo no sistema nunca muda. Isso significa que, seja qual for a diferença de classificação Elo entre duas equipes, a quantidade de Elo que a vencedora ganha é igual à quantidade de Elo que a derrotada perde.

*No OLE, todas as equipes começam com 1.000.

Um sistema Elo básico envolve matemática simples: só é necessário um ponto de partida* e um fator de escala “K”. K é um multiplicador que determina quanto Elo você ganha e perde após uma determinada partida. Quanto mais alto o K for, mais rápido você poderá ganhar ou perder Elo ao longo do tempo. Ou seja, o sistema se torna mais volátil. Em alguns casos, a intenção é ter um sistema volátil, enquanto outros preferem menos volatilidade. Por exemplo, alguns sistemas de xadrez usam um Elo em níveis, com Ks diferentes para patamares de habilidade distintos. Isso ajuda novos jogadores de xadrez a alcançarem sua classificação real de habilidade mais rápido, enquanto jogadores nível grão-mestre com um retrospecto competitivo estabelecido não são tão suscetíveis a grandes oscilações.

Isso é apenas um exemplo de como os sistemas Elo são altamente maleáveis. FiveThirtyEight, o site de estatísticas de esportes e eleições, tem sistemas Elo para a NFL e a NBA que tentam aprimorar modelos Elo simples para retratar a força dos times com mais precisão. Esses são os sistemas Elo que usei de base para o OLE.

Já expliquei um parâmetro dos sistemas Elo, K, mas vamos dar uma olhada em outras personalizações.

Fase a fase

A Liga Overwatch tem fases e, o mais importante, cada uma é jogada em uma atualização completamente diferente. A NBA e a NFL têm que lidar com transferências e mudanças de elenco, tanto durante quanto entre as temporadas, e foi isso o que levou o FiveThirtyEight a fazer correções por temporada. Além de ter transferências, contratações e liberações semelhantes, Overwatch ainda por cima evolui com o tempo. Por isso, o OLE precisa levar em conta mudanças de fase.

Para o meu modelo, descobri que a solução do FiveThirtyEight cabia perfeitamente. Sempre que a temporada muda, só uma fração do Elo da temporada anterior é considerada. No modelo da NBA, é 75% do Elo da temporada anterior. Para este exercício, vou deixar isso como uma variável desconhecida chamada “taxa fase a fase”, ou FF.

Qual a granularidade?

Ao calcular novas classificações do OLE, tive que decidir com que frequência ele é atualizado. A NBA, a NFL e o xadrez têm partidas, enquanto a Liga Overwatch tem confrontos, que são divididos em mapas. Devo atualizar o OLE de uma equipe só após a conclusão de um confronto? Ou depois de cada mapa? Levei em consideração o seguinte:

  1. Não havia confrontos suficientes jogados para calcular novos OLE.
  2. Nem todos os confrontos são iguais: um 4 a 0 não é o mesmo que um 3 a 2.
  3. Mesmo escolhendo mapas, seria impossível que uma vitória por 3 a 2 resultasse em mais Elo ganho pela perdedora do confronto, graças à natureza de soma zero do Elo.

Portanto, o novo OLE das equipes é calculado após cada mapa disputado.

Margem de Vitória (MdV)

Nem todos os confrontos são iguais, tampouco as vitórias em mapas. Os sistemas Elo do FiveThirtyEight levam em conta a margem de vitória nos resultados das partidas como um multiplicador do K. Dessa forma, cria-se um K dinâmico, que determina se uma vitória foi suada ou um passeio. O cálculo de MdV do FiveThirtyEight parece ser uma receita secreta: é definido, mas pouco explicado. O que posso afirmar é que ela criou uma função logarítmica que recompensa cada vez menos as equipes conforme elas sobem na pontuação, mas uma vitória folgada ainda vale mais MdV do que um confronto acirrado.

É aí que as coisas se complicam para Overwatch. Basquete e futebol americano têm MdVs definidas e compreensíveis porque, prorrogações à parte, as partidas têm duração definida. Durante a temporada inaugural da Liga Overwatch, os mapas duraram de seis minutos e 22 segundos até mais de 37 minutos. Além disso, dependendo de qual equipe atacou primeiro, o placar pode não ser confiável. Pode-se argumentar que uma vitória por 1 a 0 saindo na defesa é no mínimo tão impressionante quanto uma vitória por 3 a 0 atacando primeiro. Pensando assim, eu não podia usar o saldo de pontos de captura como minha MdV e precisava encontrar uma estatística que medisse com precisão o grau de folga de uma vitória, independentemente da duração do confronto.

Não fui exatamente bem-sucedido. Consegui determinar um conjunto de estatísticas sem variação de tempo que acertou a equipe vencedora de 94% dos mapas disputados na Liga Overwatch. Ainda havia alguns casos atípicos em que a perdedora superou a vencedora no papel, mas perdeu o confronto. Como Overwatch é um jogo de objetivos, concluí que é normal isso acontecer de tempos em tempos.

Para lidar com isso, sempre que a MdV da vencedora era menor do que a da perdedora, eu inverti os valores: se você perdeu no papel mas levou o mapa, você merece o espólio do adversário. Em seguida, coloquei minha “receita secreta” de estatísticas de MdV em uma função logarítmica que multiplica confrontos apertados por 0,75, vitórias “de lavada” por aproximadamente 1,5 e passeios ridículos (bastante raros) por aproximadamente 3. Cerca de 79% dos confrontos acabaram com um multiplicador de MdV de 1, 0,25 ou -0,25.

A parte divertida: escolher valores de parâmetros

Minha fórmula final para o OLE acabou assim:

Novo Elo = Elo anterior + MdV x K x (resultado atual – resultado esperado)

Exceto quanto há uma mudança de fase, quando o OLE da nova fase seria calculado como:

Novo Elo = Elo anterior x FF + 1000 x (1-FF)

Mas como sei qual K ou FF devo usar? Até agora, havia deixado ambos em aberto. Em vez de escolher aleatoriamente, testei todos! Mais especificamente, me concentrei em um intervalo de 5 a 24 para K, mas testei valores de 25 a 50 também. Você pode conferir abaixo como os diferentes valores para K e FF mudaram a progressão do OLE ao longo da temporada inaugural da Liga Overwatch. Primeiro, uma combinação “meio-termo” de K = 10 e FF = 0,5:

ct5k10.png
Progressão do Elo da Liga Overwatch por confronto

O gráfico mostra a progressão do OLE por confronto durante a temporada, com cada OLE calculado mapa a mapa. Podemos ver diversas tendências da temporada que correspondem ao teste de observação. Por exemplo, até a 3ª Fase, a liga foi dominada pela NYXL e pela London. A 3ª Fase foi o auge da NYXL, mas ela caiu rapidamente e até perdeu a 1ª colocação para a Valiant. A Dragons, a Mayhem e a Fuel caíram rapidamente em todas as Fases, mas a Fuel conseguiu subir e terminou a 4ª Fase perto do meio da tabela, graças ao peso de suas apresentações anteriores.

Agora compare isso a K = 24 e FF = 1 (K mais volátil e nenhuma correção fase a fase):

CT1K24.png
Progressão do Elo da Liga Overwatch por confronto

Um K mais alto representa maior volatilidade, que se reflete melhor na ascensão da Fuel e na queda da NYXL na 4ª Fase. Além disso, equipes como a Shanghai ficaram cada vez mais abaixo de suas colegas de maior patamar, o que teve um efeito perceptível em suas expectativas de vitória.

É divertido brincar com gráficos bacanas, mas como posso avaliar a precisão do meu modelo de OLE? Para avaliar os diferentes parâmetros, usei pontuações Brier, que classificam a precisão de resultados probabilísticos. Como sistemas Elo calculam inerentemente a expectativa de vitória, eu já tinha probabilidades para classificar. Nas pontuações Brier, quanto menos pontos, melhor. Mapeei a pontuação Brier média para cada combinação de K e FF:

rawrbrier.png
Pontuações Brier médias para cada combinação de K/FF

A melhor pontuação Brier acabou sendo a dos valores mínimos de K (5) e FF (0,1), no canto superior esquerdo do gráfico acima. Além disso, eis a pontuação Brier média de cada equipe com K = 24 e FF = 1 (mais volátil, sem correção fase a fase) e a pontuação Brier mínima:

brier ct1k24.png
Pontuações Brier

brier ct1k5.png
Pontuações Brier

Usando as pontuações Brier, quanto menor o K, mais precisas as previsões pareciam ser. Comparando os dois gráficos, podemos botar isso na conta principalmente da New York e dos dois terços superiores da liga. Embora um K alto tenha levado a Dragons, a Mayhem e a Fuel com rapidez e precisão para o fundo do poço, as situações em que essas equipes ganharam mapas contra outras como a NYXL afetaram a pontuação Brier média da liga. Como consequência, as previsões de expectativa de vitória ficaram mais cautelosas em comparação com os modelos mais voláteis. Agora vamos olhar a progressão do OLE durante a temporada com os nossos parâmetros “ideais”:

CT1k5.png
Progressão do Elo da Liga Overwatch por confronto

Os mesmos picos e quedas aparecem, mas as equipes começam as fases muito mais próximas, ganhando e perdendo OLE um pouco mais devagar. Como o K e o FF ideais são bem baixos, a Liga Overwatch deve ter sido excepcionalmente imprevisível no início de cada fase, mas, ao final, as classificações relativas de cada equipe estavam bem definidas. Bom sinal: corresponde ao teste de observação! Essa imprevisibilidade me levou à conclusão final:

Era impossível prever que a London venceria o campeonato inaugural da Liga Overwatch.

Se eu tivesse usado meu modelo OLE para escolher a campeã antes dos playoffs, teria optado por uma final entre a Valiant e a NYXL, com vitória da Valiant. Em vez disso, a sexta equipe mais forte da 4ª Fase (a Fusion) enfrentou a quarta equipe mais fraca (a Spitfire), com vitória da equipe de menor OLE. As duas pontuaram bastante na primeira metade da temporada, então sabíamos que podiam jogar muito bem. Entretanto, elas claudicaram ao longo da temporada, assoladas por lesões, falta de orientação e apagões.

No fim das contas, as únicas pessoas que sabiam que a London e a Philadelphia estavam muito bem na nova atualização eram... a London e a Philadelphia.

Não importa quantos penduricalhos eu acrescente ao sistema OLE: ele não conseguirá revelar o motivo do desempenho fraco em várias fases, apenas que houve uma queda no desempenho. Também não conseguirá prever quais equipes vão cair de repente após três fases de soberania, apenas o nível da queda e quando ela começou. Sistemas como esse não podem avaliar o que uma equipe é capaz de fazer, porque não há nenhuma forma de ajustar para o “potencial da equipe”.

No entanto, sistemas Elo são ótimos para aplicar números ao histórico das ligas. A temporada inaugural teve seus altos e baixos, do auge do domínio da NYXL à recuperação improvável da Spitfire. Algumas equipes chegaram ao ápice cedo, outras no meio e algumas no final. Foi essa imprevisibilidade que deixou cada fase única, empolgante e memorável. E agora nós temos números para provar isso.

Ben “CaptainPlanet” Trautman é produtor de estatísticas da Transmissão Global da Liga Overwatch.