Em março de 2025, a Arc Prize Foundation, co-fundada pelo renomado pesquisador François Chollet, lançou um novo teste revolucionário para avaliar a inteligência geral de modelos de IA, denominado ARC-AGI-2. Este teste promete desafiar as capacidades dos principais modelos de IA, incluindo aqueles desenvolvidos por gigantes como Anthropic, Google e DeepSeek.
O ARC-AGI-2 foi cuidadosamente projetado para medir não apenas a eficácia dos modelos em resolver problemas, mas também sua capacidade de adaptação a novas situações de maneira eficiente. Ao contrário dos testes anteriores, os problemas visuais do ARC-AGI-2 exigem uma abordagem mais estratégica e menos dependente da força bruta computacional. Modelos conhecidos por seu raciocínio, como o o1-pro da OpenAI e o R1 da DeepSeek, tiveram um desempenho surpreendentemente baixo, com notas entre 1% e 1.3%. Já modelos reconhecidos por não serem raciocínio, como o GPT-4.5, Claude 3.7 Sonnet e Gemini 2.0 Flash, conseguiram pontuações em torno de 1%.
Para estabelecer um padrão de referência, mais de 400 participantes humanos se submeteram ao teste ARC-AGI-2, alcançando uma média de 60% de acerto. Este resultado põe em evidência a grande disparidade entre o desempenho humano e o dos modelos de IA contemporâneos. François Chollet, em suas declarações, afirmou que o ARC-AGI-2 apresenta uma medição mais precisa da verdadeira inteligência dos modelos de IA se comparado ao seu antecessor, o ARC-AGI-1, que foi superado em dezembro de 2024 pelo modelo o3 da OpenAI.
O surgimento do ARC-AGI-2 não apenas levanta questões sobre as limitações das IA atuais, mas também convida à reflexão sobre o futuro do desenvolvimento da inteligência artificial geral. À medida que os testes se tornam mais exigentes, a indústria pode ser impelida a reavaliar as metodologias de treino e a concepção de novos modelos que possam, de fato, competir com a inteligência humana em sua essência. A busca incessante por um AGI verdadeiramente funcional continua, e o ARC-AGI-2 pode ser um divisor de águas nesse processo.