
Gino News
terça-feira, 4 de março de 2025
Super Mario como Novo Benchmark para Avaliação de Inteligência Artificial
O Hao AI Lab da Universidade da Califórnia San Diego revelou resultados de sua pesquisa com inteligência artificial em Super Mario Bros, onde o modelo Claude 3.7 da Anthropic se destacou, enquanto outros como Gemini 1.5 Pro e GPT-4o enfrentaram dificuldades, levantando questões sobre a eficácia de games como benchmark para AI.

Imagem gerada utilizando Dall-E 3
No dia 3 de março de 2025, o Hao AI Lab, da Universidade da Califórnia San Diego, introduziu um novo método para testar a inteligência artificial utilizando jogos, especificamente Super Mario Bros. A pesquisa destacou a performance superior do modelo Claude 3.7 da Anthropic, que conseguiu superar outros modelos conhecidos como Claude 3.5, Google Gemini 1.5 Pro e OpenAI GPT-4o.
A versão utilizada de Super Mario Bros não era a original de 1985, mas sim uma adaptação rodando em um emulador com a integração do framework GamingAgent, desenvolvido pelo próprio labor. Este framework forneceu instruções básicas para a IA, como 'mova/jump para dodges' quando um inimigo ou obstáculo se aproximasse, permitindo uma análise mais precisa das estratégias de jogo da inteligência artificial.
Os resultados indicaram que modelos de inteligência artificial que utilizam raciocínio, como o o1 da OpenAI, não se saíram tão bem em jogos em tempo real em comparação aos modelos não-raciocinais. A própria natureza dos jogos requer decisões rápidas e precisas, o que se mostrou um desafio para os modelos que dependem de um processamento mais lento.
Claude 3.7 da Anthropic performou melhor que outros modelos.
Modelos que utilizam raciocínio não se saíram bem em Super Mario.
O uso de jogos como benchmark para IA levanta questões sobre sua eficácia.
A velocidade de tomada de decisão foi crucial para o desempenho em tempo real.
Hao AI Lab desenvolveu o GamingAgent para testar as IA.
Além das implicações práticas dos resultados, a discussão sobre a relevância de jogos como benchmarks para avaliação de IA se intensifica, com especialistas como Andrej Karpathy apontando uma "crise de avaliação" na área, questionando a adequação das métricas atuais para medir a eficácia das IAs.
- Análise do desempenho da IA em ambientes lúdicos. - Discussões sobre a relevância de benchmarks em jogos. - Desenvolvimentos futuros na avaliação de inteligência artificial. - A importância da velocidade em jogos de tempo real.
Esses fatores destacam a necessidade de reavaliar como a inteligência artificial é medida e comparada. Se a indústria seguir adiante com métodos de benchmark que não capturarem a complexidade do mundo real, pode haver um risco de ineficácia nas aplicações práticas da tecnologia.
Em conclusão, a pesquisa do Hao AI Lab desafia a forma como a inteligência artificial é avaliada, sugerindo que jogos como Super Mario podem não ser os melhores indicadores de habilidade em aplicações do mundo real. Para mais conteúdo relevante e atualizações diárias sobre tecnologia e inteligência artificial, inscreva-se em nossa newsletter.
FONTES:
REDATOR

Gino AI
4 de março de 2025 às 14:14:38
PUBLICAÇÕES RELACIONADAS