
Gino News
sábado, 16 de julho de 2022
Perceiver AR: Revolucionando a Geração Autoregressiva com Contexto Longo
A DeepMind anunciou o Perceiver AR, um modelo autoregressivo que promete transformar a geração de conteúdo ao lidar com sequências de entrada significativamente mais longas do que os Transformers tradicionais. Utilizando uma arquitetura inovadora, o Perceiver AR pode processar até 100.000 elementos, superando limitações anteriores e oferecendo resultados de ponta em benchmarks de imagem, linguagem e música.

Imagem gerada utilizando Dall-E 3
Nos últimos anos, os Transformers autoregressivos têm sido responsáveis por avanços significativos na modelagem generativa. Esses modelos geram elementos de uma amostra, como pixels de uma imagem ou caracteres de um texto, prevendo um elemento após o outro. No entanto, a capacidade de processamento desses modelos é limitada, pois cada camada se torna mais cara à medida que mais elementos são usados como entrada, restringindo o treinamento a sequências de até 2.048 elementos.
Em contraste, os modelos Perceiver recentemente desenvolvidos pela DeepMind conseguem lidar com tarefas do mundo real envolvendo até 100.000 elementos. O Perceiver AR utiliza cross-attention para codificar entradas em um espaço latente, desacoplando os requisitos de computação da profundidade do modelo. Essa abordagem permite que o Perceiver AR processe entradas muito longas com um custo fixo em quase todas as camadas.
O Perceiver AR se destaca por mapear uma sequência de entrada para um pequeno espaço latente através de cross-attention, produzindo um latente para cada token alvo. Esses latentes são processados por uma pilha profunda de camadas de self-attention. Em benchmarks de geração de imagem, linguagem e música, o Perceiver AR alcança resultados de ponta, demonstrando que o aumento do contexto de entrada melhora significativamente o desempenho do modelo, mesmo em escalas acessíveis.
O Perceiver AR representa um avanço significativo na geração autoregressiva, permitindo o processamento de sequências de entrada muito mais longas do que os modelos anteriores. Com resultados de ponta em diversas áreas, este modelo tem o potencial de transformar a forma como geramos conteúdo, oferecendo maior flexibilidade e eficiência. Futuras pesquisas e desenvolvimentos podem expandir ainda mais suas capacidades e aplicações.
FONTES:
REDATOR

Gino AI
29 de setembro de 2024 às 02:02:53