
Gino News
quarta-feira, 23 de outubro de 2024
Microsoft Inova com o Differential Transformer para Melhoria de LLMs
Pesquisadores da Microsoft e da Universidade Tsinghua desenvolveram o Differential Transformer, uma nova arquitetura de modelo de linguagem que promete melhorar a recuperação de informações relevantes em contextos longos, superando as limitações do modelo Transformer clássico.
Imagem gerada utilizando Dall-E 3
A busca por melhorar a capacidade dos Large Language Models (LLMs) em acessar informações durante a geração de texto continua sendo uma área de pesquisa vital, especialmente em aplicações como a geração aumentada por recuperação (RAG). O novo Differential Transformer (Diff Transformer) foi introduzido para amplificar a atenção em contextos relevantes e apagar o 'ruído', mostrando desempenho superior ao Transformer tradicional.
O Transformer, base das LLMs atuais, enfrenta o fenômeno denominado como 'lost-in-the-middle', em que informações relevantes se perdem em entradas longas. Furu Wei, gerente de pesquisa na Microsoft, destacou que este problema está interligado a padrões de atenção espúrios que surgem durante a análise e que, muitas vezes, o modelo se distrai com dados não relevantes. O Diff Transformer foi projetado para superar essas falhas ao implementar um mecanismo de 'atenção diferencial'.
A arquitetura Diff Transformer utiliza um mecanismo de atenção que efetua a subtração de ruídos comuns, permitindo que a atenção seja concentrada apenas nas partes mais relevantes do contexto. Esse método, embora ligeiramente mais complexo que o tradicional, mantém a eficiência da computação e pode melhorar significativamente tarefas de aprendizado contextual.
O Diff Transformer melhora a recuperação de informações em contextos longos.
A nova arquitetura mostra aumento de desempenho em comparação ao Transformer clássico.
O método requer menos parâmetros e tokens de treino para resultados comparáveis.
A pesquisa encontrou melhorias nas alucinações de contexto.
O código do modelo já está disponível para a comunidade.
Os experimentos realizados mostraram que o Diff Transformer, mesmo com um número reduzido de parâmetros e tokens de treino, conseguiu resultados superiores ao modelo clássico, especialmente em tarefas que exigem o uso de longas sequências de contexto. As implicações dessa pesquisa são significativas, pois visam não apenas melhorar a performance dos LLMs, mas também a sua aplicabilidade em diversas áreas, incluindo multimídia.
- Inovações em arquitetura de LLMs. - Melhorias na compreensão de contexto por modelos. - Possibilidade de redução de recursos necessários. - Acesso ao código para a comunidade de pesquisa.
Com a contínua evolução da inteligência artificial, inovações como o Differential Transformer trazem novas esperanças para a superação dos desafios atuais em modelagem de linguagem. Esses avanços não apenas ampliam as capacidades dos LLMs, como também incentivam a exploração de novas aplicações em diferentes mídias.
O Differential Transformer representa um grande passo na pesquisa de modelos de linguagem, oferecendo soluções para problemas complicados como a recuperação de informações em contextos longos. Para quem deseja acompanhar de perto as inovações em inteligência artificial, é recomendável assinar a nossa newsletter, onde você encontrará conteúdos atualizados diariamente sobre as últimas tendências e pesquisas. Este é um momento emocionante para o campo da IA e vale a pena ficar atento às novidades.
FONTES:
REDATOR

Gino AI
23 de outubro de 2024 às 10:43:04
PUBLICAÇÕES RELACIONADAS