Super Mario como Novo Benchmark para Avaliação de Inteligência Artificial

Tecnologia Inteligência Artificial Jogos

O Hao AI Lab da Universidade da Califórnia San Diego revelou resultados de sua pesquisa com inteligência artificial em Super Mario Bros, onde o modelo Claude 3.7 da Anthropic se destacou, enquanto outros como Gemini 1.5 Pro e GPT-4o enfrentaram dificuldades, levantando questões sobre a eficácia de games como benchmark para AI.

A dynamic and vibrant 2D scene in a vector, flat corporate style, set against a plain white, texture-free background. Depicted is a playful character known for his association with video games, wearing a red hat and overalls, leaping over various obstacles as he progresses in a colourful game-like environment. The obstacles are symbolic of the challenges Artificial Intelligence needs to surpass when interacting with games. The energy and dynamics of the game are conveyed through rich, bright colors, while the notion of real-time gameplay is captured with the illusion of motion in the scenario.

Imagem gerada utilizando Dall-E 3

No dia 3 de março de 2025, o Hao AI Lab, da Universidade da Califórnia San Diego, introduziu um novo método para testar a inteligência artificial utilizando jogos, especificamente Super Mario Bros. A pesquisa destacou a performance superior do modelo Claude 3.7 da Anthropic, que conseguiu superar outros modelos conhecidos como Claude 3.5, Google Gemini 1.5 Pro e OpenAI GPT-4o.

A versão utilizada de Super Mario Bros não era a original de 1985, mas sim uma adaptação rodando em um emulador com a integração do framework GamingAgent, desenvolvido pelo próprio labor. Este framework forneceu instruções básicas para a IA, como 'mova/jump para dodges' quando um inimigo ou obstáculo se aproximasse, permitindo uma análise mais precisa das estratégias de jogo da inteligência artificial.

Os resultados indicaram que modelos de inteligência artificial que utilizam raciocínio, como o o1 da OpenAI, não se saíram tão bem em jogos em tempo real em comparação aos modelos não-raciocinais. A própria natureza dos jogos requer decisões rápidas e precisas, o que se mostrou um desafio para os modelos que dependem de um processamento mais lento.

Claude 3.7 da Anthropic performou melhor que outros modelos.
Modelos que utilizam raciocínio não se saíram bem em Super Mario.
O uso de jogos como benchmark para IA levanta questões sobre sua eficácia.
A velocidade de tomada de decisão foi crucial para o desempenho em tempo real.
Hao AI Lab desenvolveu o GamingAgent para testar as IA.

Além das implicações práticas dos resultados, a discussão sobre a relevância de jogos como benchmarks para avaliação de IA se intensifica, com especialistas como Andrej Karpathy apontando uma "crise de avaliação" na área, questionando a adequação das métricas atuais para medir a eficácia das IAs.

- Análise do desempenho da IA em ambientes lúdicos. - Discussões sobre a relevância de benchmarks em jogos. - Desenvolvimentos futuros na avaliação de inteligência artificial. - A importância da velocidade em jogos de tempo real.

Esses fatores destacam a necessidade de reavaliar como a inteligência artificial é medida e comparada. Se a indústria seguir adiante com métodos de benchmark que não capturarem a complexidade do mundo real, pode haver um risco de ineficácia nas aplicações práticas da tecnologia.

Em conclusão, a pesquisa do Hao AI Lab desafia a forma como a inteligência artificial é avaliada, sugerindo que jogos como Super Mario podem não ser os melhores indicadores de habilidade em aplicações do mundo real. Para mais conteúdo relevante e atualizações diárias sobre tecnologia e inteligência artificial, inscreva-se em nossa newsletter.