top of page

Gino News

domingo, 13 de outubro de 2024

Michelangelo: Novo Benchmark da DeepMind Desvenda Limitações de LLMs em Longo Contexto

Inteligência Artificial Tecnologia Pesquisa

Pesquisadores da Google DeepMind apresentaram o Michelangelo, um novo benchmark que avalia as capacidades de raciocínio em longos contextos de modelos de linguagem, revelando as limitações que esses sistemas ainda enfrentam ao processar grandes volumes de informação.

Create a detailed 2D, linear, corporate-style vector illustration on a textureless white background. The image should depict abstract elements symbolising artificial intelligence and reasoning, such as gears and circuits against the backdrop. Include a figurative representation of a sculptor meticulously working on a masterpiece, symbolising the Michelangelo benchmark. The sculptor is a nod to the continuous evaluation and refinement of Large Language Models (LLMs). Make sure to use hues of blues and greens, conveying a sense of technology and innovation. This composition aims to encapsulate the unveiling of Michelangelo and the limitations of LLMs that it reveals.

Imagem gerada utilizando Dall-E 3

Os Large Language Models (LLMs) têm apresentado avanços impressionantes em suas capacidades, especialmente aqueles capazes de processar longos contextos de até 1 milhão de tokens. Contudo, a eficácia desses modelos em raciocínio sobre dados extensos ainda é um ponto de interrogação.


Com a introdução do Michelangelo, a equipe da DeepMind busca avaliar não apenas a habilidade de recuperação de informações, mas também o raciocínio que esses modelos conseguem realizar sobre a estrutura de dados ao longo de seus contextos. As pesquisas mostram que, apesar do progresso, os LLMs enfrentam desafios significativos em tarefas que requerem raciocínio complexo.


O benchmark Michelangelo é estruturado em três tarefas principais que desafiam a capacidade dos modelos: Latent List, onde os modelos processam sequências em Python; Multi-round Co-reference Resolution (MRCR), que exige a compreensão de diálogos longos; e 'I don’t know' (IDK), que testa a habilidade do modelo de reconhecer limitações de conhecimento.


  1. Latent List: Avalia a capacidade de rastreamento de estruturas de dados em sequências Python.

  2. Multi-round Co-reference Resolution (MRCR): Testa a compreensão de diálogos complexos.

  3. 'I don’t know' (IDK): Verifica se o modelo reconhece os limites de seu conhecimento.

  4. Latent Structure Queries (LSQ): Uma nova abordagem para avaliações de raciocínio em longos contextos.

  5. Desempenho dos modelos variou conforme a complexidade das tarefas.


Os testes revelaram que os modelos de fronteira, incluindo variantes do Gemini e GPT, mostram queda acentuada no desempenho à medida que a complexidade das tarefas aumenta. Isso destaca a necessidade de melhorias nos algoritmos de raciocínio de longo contexto.


- Limitações atuais nos LLMs em tarefas de raciocínio. - Necessidade de benchmarks novos para avaliação mais aprofundada. - Implicações significativas para aplicações práticas em empresas. - Continuidade da pesquisa e adição de novas avaliações no Michelangelo.


A análise realizada por DeepMind sugere que, embora os LLMs possam ser altamente competentes em tarefas simples de recuperação, a capacidade de raciocinar adequadamente sobre informações complexas e interligadas ainda precisa de desenvolvimento.


O Michelangelo representa um passo importante no aprimoramento da avaliação das capacidades dos modelos de linguagem. Para os interessados em saber mais sobre as inovações em inteligência artificial, inscrevam-se em nossa newsletter e receba conteúdos atualizados diariamente sobre esse tema fascinante!


 
FONTES:

    1. VentureBeat

    2. DeepMind

    3. Research Paper

    4. Gemini Model

    5. GPT-4

    REDATOR

    Gino AI

    13 de outubro de 2024 às 15:03:44

    PUBLICAÇÕES RELACIONADAS

    Create a 2D, linear perspective image that echoes a corporate and tech-savvy feel. The backdrop is white and textureless, ornamented with an abstract representation of accompanying networks and circuits. Foreground highlights a futuristic interface populated with a group of AI agents, symbolizing the two points, diversity and unity. Interspersed are a variety of AI icons depicting various tasks they can perform. A robotic hand representation is also prominently displayed, symbolizing the supportive functions the system provides to users. Additionally, sprinkle the scene with performance graphs that illustrate the effectiveness and benchmarks of the multitasking AI system compared to competitors. Capture elements of Flat and Vector design styles in the composition.

    Manus: O Novo Sistema de IA que Promete Revolucionar Tarefas Autônomas

    Create an image in a 2D, linear perspective that visualizes a user interacting with a large-scale language model within a digital environment. The image should be in a vector-based flat corporate design with a white, textureless background. Display charts that show comparisons between performance metrics of Length Controlled Policy Optimization (LCPO) models and traditional methods. Also, include reasoning flows to illustrate the model's decision-making process. To symbolize the real-time application of the model in business operations, include elements of a digital environment. Use cool colors to convey a sense of advanced technology and innovation.

    Nova Técnica Revoluciona Otimização de Raciocínio em Modelos de Linguagem

    Illustrate a 2D, linear perspective image in a corporate, flat and vector style. The image has a textureless, white background. In the foreground, focus on a central figure who symbolizes a leadership role in AI, but not specifically Stephen Peacock. He is explaining the application of AI in game development. Include a visual context of the game development environment and a logo symbolizing an international game development provider, but not specifically the Keywords Studios logo.

    Keywords Studios Lança Soluções de IA para Desenvolvimento de Jogos

    Create a detailed 2D, linear and vectorial image in a flat, corporate style on a white non-textured background. The image should showcase the interface of an AI-assistant from a generic restaurant review platform, symbolised by a radiant logo in vibrant colors, similar to the Yelp logo but sufficiently different to avoid copyright issues. To illustrate the AI's functionalities and user interactions, please depict various individuals of diverse descents and genders engaging with the AI interface. Also include the depictions of application interfaces to highlight the technology involved.

    Yelp Inova com Assistente de IA: Desafios e Avanços na Plataforma

    Fique por dentro das últimas novidades em IA

    Obtenha diariamente um resumo com as últimas notícias, avanços e pesquisas relacionadas a inteligência artificial e tecnologia.

    Obrigado pelo envio!

    logo genai

    GenAi Br © 2024

    • LinkedIn
    bottom of page