
Gino News
domingo, 13 de outubro de 2024
Michelangelo: Novo Benchmark da DeepMind Desvenda Limitações de LLMs em Longo Contexto
Pesquisadores da Google DeepMind apresentaram o Michelangelo, um novo benchmark que avalia as capacidades de raciocínio em longos contextos de modelos de linguagem, revelando as limitações que esses sistemas ainda enfrentam ao processar grandes volumes de informação.

Imagem gerada utilizando Dall-E 3
Os Large Language Models (LLMs) têm apresentado avanços impressionantes em suas capacidades, especialmente aqueles capazes de processar longos contextos de até 1 milhão de tokens. Contudo, a eficácia desses modelos em raciocínio sobre dados extensos ainda é um ponto de interrogação.
Com a introdução do Michelangelo, a equipe da DeepMind busca avaliar não apenas a habilidade de recuperação de informações, mas também o raciocínio que esses modelos conseguem realizar sobre a estrutura de dados ao longo de seus contextos. As pesquisas mostram que, apesar do progresso, os LLMs enfrentam desafios significativos em tarefas que requerem raciocínio complexo.
O benchmark Michelangelo é estruturado em três tarefas principais que desafiam a capacidade dos modelos: Latent List, onde os modelos processam sequências em Python; Multi-round Co-reference Resolution (MRCR), que exige a compreensão de diálogos longos; e 'I don’t know' (IDK), que testa a habilidade do modelo de reconhecer limitações de conhecimento.
Latent List: Avalia a capacidade de rastreamento de estruturas de dados em sequências Python.
Multi-round Co-reference Resolution (MRCR): Testa a compreensão de diálogos complexos.
'I don’t know' (IDK): Verifica se o modelo reconhece os limites de seu conhecimento.
Latent Structure Queries (LSQ): Uma nova abordagem para avaliações de raciocínio em longos contextos.
Desempenho dos modelos variou conforme a complexidade das tarefas.
Os testes revelaram que os modelos de fronteira, incluindo variantes do Gemini e GPT, mostram queda acentuada no desempenho à medida que a complexidade das tarefas aumenta. Isso destaca a necessidade de melhorias nos algoritmos de raciocínio de longo contexto.
- Limitações atuais nos LLMs em tarefas de raciocínio. - Necessidade de benchmarks novos para avaliação mais aprofundada. - Implicações significativas para aplicações práticas em empresas. - Continuidade da pesquisa e adição de novas avaliações no Michelangelo.
A análise realizada por DeepMind sugere que, embora os LLMs possam ser altamente competentes em tarefas simples de recuperação, a capacidade de raciocinar adequadamente sobre informações complexas e interligadas ainda precisa de desenvolvimento.
O Michelangelo representa um passo importante no aprimoramento da avaliação das capacidades dos modelos de linguagem. Para os interessados em saber mais sobre as inovações em inteligência artificial, inscrevam-se em nossa newsletter e receba conteúdos atualizados diariamente sobre esse tema fascinante!
FONTES:
REDATOR

Gino AI
13 de outubro de 2024 às 15:03:44