top of page

Gino News

terça-feira, 4 de março de 2025

Super Mario como Novo Benchmark para Avaliação de Inteligência Artificial

Tecnologia Inteligência Artificial Jogos

O Hao AI Lab da Universidade da Califórnia San Diego revelou resultados de sua pesquisa com inteligência artificial em Super Mario Bros, onde o modelo Claude 3.7 da Anthropic se destacou, enquanto outros como Gemini 1.5 Pro e GPT-4o enfrentaram dificuldades, levantando questões sobre a eficácia de games como benchmark para AI.

A dynamic and vibrant 2D scene in a vector, flat corporate style, set against a plain white, texture-free background. Depicted is a playful character known for his association with video games, wearing a red hat and overalls, leaping over various obstacles as he progresses in a colourful game-like environment. The obstacles are symbolic of the challenges Artificial Intelligence needs to surpass when interacting with games. The energy and dynamics of the game are conveyed through rich, bright colors, while the notion of real-time gameplay is captured with the illusion of motion in the scenario.

Imagem gerada utilizando Dall-E 3

No dia 3 de março de 2025, o Hao AI Lab, da Universidade da Califórnia San Diego, introduziu um novo método para testar a inteligência artificial utilizando jogos, especificamente Super Mario Bros. A pesquisa destacou a performance superior do modelo Claude 3.7 da Anthropic, que conseguiu superar outros modelos conhecidos como Claude 3.5, Google Gemini 1.5 Pro e OpenAI GPT-4o.


A versão utilizada de Super Mario Bros não era a original de 1985, mas sim uma adaptação rodando em um emulador com a integração do framework GamingAgent, desenvolvido pelo próprio labor. Este framework forneceu instruções básicas para a IA, como 'mova/jump para dodges' quando um inimigo ou obstáculo se aproximasse, permitindo uma análise mais precisa das estratégias de jogo da inteligência artificial.


Os resultados indicaram que modelos de inteligência artificial que utilizam raciocínio, como o o1 da OpenAI, não se saíram tão bem em jogos em tempo real em comparação aos modelos não-raciocinais. A própria natureza dos jogos requer decisões rápidas e precisas, o que se mostrou um desafio para os modelos que dependem de um processamento mais lento.


  1. Claude 3.7 da Anthropic performou melhor que outros modelos.

  2. Modelos que utilizam raciocínio não se saíram bem em Super Mario.

  3. O uso de jogos como benchmark para IA levanta questões sobre sua eficácia.

  4. A velocidade de tomada de decisão foi crucial para o desempenho em tempo real.

  5. Hao AI Lab desenvolveu o GamingAgent para testar as IA.


Além das implicações práticas dos resultados, a discussão sobre a relevância de jogos como benchmarks para avaliação de IA se intensifica, com especialistas como Andrej Karpathy apontando uma "crise de avaliação" na área, questionando a adequação das métricas atuais para medir a eficácia das IAs.


- Análise do desempenho da IA em ambientes lúdicos. - Discussões sobre a relevância de benchmarks em jogos. - Desenvolvimentos futuros na avaliação de inteligência artificial. - A importância da velocidade em jogos de tempo real.


Esses fatores destacam a necessidade de reavaliar como a inteligência artificial é medida e comparada. Se a indústria seguir adiante com métodos de benchmark que não capturarem a complexidade do mundo real, pode haver um risco de ineficácia nas aplicações práticas da tecnologia.


Em conclusão, a pesquisa do Hao AI Lab desafia a forma como a inteligência artificial é avaliada, sugerindo que jogos como Super Mario podem não ser os melhores indicadores de habilidade em aplicações do mundo real. Para mais conteúdo relevante e atualizações diárias sobre tecnologia e inteligência artificial, inscreva-se em nossa newsletter.


FONTES:

    1. TechCrunch

    2. Anthropic

    3. Google Gemini

    4. OpenAI GPT-4o

    5. Hao AI Lab

    REDATOR

    Gino AI

    4 de março de 2025 às 14:14:38

    PUBLICAÇÕES RELACIONADAS

    Create a 2D, linear perspective image that echoes a corporate and tech-savvy feel. The backdrop is white and textureless, ornamented with an abstract representation of accompanying networks and circuits. Foreground highlights a futuristic interface populated with a group of AI agents, symbolizing the two points, diversity and unity. Interspersed are a variety of AI icons depicting various tasks they can perform. A robotic hand representation is also prominently displayed, symbolizing the supportive functions the system provides to users. Additionally, sprinkle the scene with performance graphs that illustrate the effectiveness and benchmarks of the multitasking AI system compared to competitors. Capture elements of Flat and Vector design styles in the composition.

    Manus: O Novo Sistema de IA que Promete Revolucionar Tarefas Autônomas

    Create a 2D, linear and corporate-style vector image symbolizing a significant milestone in artificial intelligence technology. This image shows the Gemini 2.0 Flash, a model that integrates native image generation and text-based editing. The interface of Gemini 2.0 Flash is shown in use, placed against a plain, white, and texture-less background. In the image, you can see it generating images from text commands within a digital workspace. Additional elements in the image include symbols of artificial intelligence, like brain and circuit icons. Use vibrant colors to convey innovation and technology, and apply a futuristic style that aligns with the vision of advanced technology.

    Google Lança Gemini 2.0 Flash: Revolução na Geração de Imagens com IA

    Create an image in a 2D, linear perspective that visualizes a user interacting with a large-scale language model within a digital environment. The image should be in a vector-based flat corporate design with a white, textureless background. Display charts that show comparisons between performance metrics of Length Controlled Policy Optimization (LCPO) models and traditional methods. Also, include reasoning flows to illustrate the model's decision-making process. To symbolize the real-time application of the model in business operations, include elements of a digital environment. Use cool colors to convey a sense of advanced technology and innovation.

    Nova Técnica Revoluciona Otimização de Raciocínio em Modelos de Linguagem

    Create a vector-style, corporate-like 2D linear image set on a plain white, untextured background. The main focus is a chatbot, symbolizing the new version of Gemini 2.0 Flash Thinking, which is interacting with various Google applications iconized in brilliant, vibrant colors to convey the notion of integration, personalization, and innovation. This interaction suggests the advanced memory and integration capabilities that allow this chatbot to provide more customized, contextual responses to the users.

    Google Apresenta Gemini 2.0: Mais Inteligência e Conexão nas Respostas do Chatbot

    Fique por dentro das últimas novidades em IA

    Obtenha diariamente um resumo com as últimas notícias, avanços e pesquisas relacionadas a inteligência artificial e tecnologia.

    Obrigado pelo envio!

    logo genai

    GenAi Br © 2024

    • LinkedIn
    bottom of page