Recentemente, o universo dos jogos de Pokémon tornou-se inesperadamente um ponto de discussão sobre benchmarking em inteligência artificial, quando um post viral na plataforma X destacou que o modelo Gemini, da Google, superou o modelo Claude, da Anthropic, ao jogar a trilogia original de Pokémon. No entanto, essa comparação não é tão straightforward quanto parece: o Gemini foi auxiliado por um mapa miniatura personalizado, que permitiu ao modelo identificar elementos cruciais do jogo sem depender exclusivamente da análise de tela. Essa situação levantou questionamentos sobre a justiça e a validade dos testes de benchmarking de IA.
O uso de Pokémon como benchmark para IA pode parecer peculiar à primeira vista, mas serve como um exemplo interessante de como as variações na implementação influenciam os resultados. Durante uma transmissão no Twitch, o Gemini alcançou Lavender Town, enquanto o Claude ficou preso em Mount Moon. Essa diferença de desempenho, entretanto, não foi apenas uma questão de habilidade: a vantagem do Gemini foi amplificada pelo uso do mapa miniatura, que facilitou o reconhecimento de "tiles" do jogo, como árvores passíveis de corte, sem a necessidade de analisar telas capturadas.
A polêmica em torno do benchmarking de IA não se restringe ao cenário de Pokémon. Recentemente, a Anthropic vivenciou uma discrepância em dois testes distintos para seu modelo Claude 3.7 Sonnet no benchmark SWE-bench Verified, um teste que avalia habilidades de codificação. Sem modificações, o modelo conseguiu uma taxa de precisão de 62.3%, mas, com um "scaffold" personalizado, esta taxa subiu para 70.3%. Essa realidade evidencia como personalizações e otimizações podem distorcer comparações entre diferentes modelos de IA.
Conforme novos modelos de IA continuam a ser desenvolvidos, a demanda por métodos de benchmarking mais abertos e padronizados se torna cada vez mais urgente. A inserção de elementos personalizados ou otimizados para testes específicos pode obscurecer a verdadeira performance de um modelo em comparação com as melhorias potencialmente enganosas. Por essa razão, é provável que as empresas sejam compelidas a adotar práticas mais transparentes para evitar enganar consumidores, investidores e pesquisadores.
O futuro do benchmarking em inteligência artificial depende de como o setor abordará estas questões de validade e justiça. A comparação entre modelos deve se basear em critérios igualmente acessíveis e replicáveis, assegurando que o desempenho real de cada modelo se destaque sem influências externas. Somente assim, a confiança nas capacidades da inteligência artificial poderá ser restaurada e aprimorada, alavancando o campo para novas descobertas e inovações.