
Gino News
terça-feira, 11 de abril de 2023
Aceleração de Transformers Visuais para Compreensão de Documentos
Pesquisadores da Unstructured estão desenvolvendo melhorias em transformers visuais que visam acelerar a compreensão de documentos, uma tarefa que ainda apresenta altos custos computacionais, especialmente em imagens de grandes dimensões.
Imagem gerada utilizando Dall-E 3
Sistemas de compreensão de documentos baseados em deep learning utilizam transformers visuais para converter imagens documentais em representações textuais. No entanto, os custos associados a esses métodos continuam sendo elevados, o que dificulta sua implementação em ambientes de produção.
Diferente de classificações de imagens menores, a compreensão de documentos exige a manipulação de imagens maiores, o que pode resultar em perda de informações. Embora haja várias otimizações possíveis, muitas delas são específicas a determinadas arquiteturas de hardware. A equipe da Unstructured investiga soluções algorítmicas que não dependem de plataformas específicas.
Os transformers visuais enfrentam um desafio de custo quadrático em relação ao comprimento da entrada. Para aumentar a velocidade de processamento, algumas técnicas padrão de otimização, como quantização e pruning, podem oferecer um aumento de desempenho significativo. Outras abordagens, como o EfficientFormer, adaptam transformers visuais para ambientes móveis, mas frequentemente oferecem desempenho inferior em comparação com redes mais complexas.
Abordagens como atenção esparsa e decomposição das matrizes de atenção têm o potencial de reduzir os custos computacionais de forma significativa. Embora essas técnicas possam não ter sido implementadas em algumas das soluções atuais, sua aplicação na compreensão de documentos ainda é promissora. Por fim, o uso de distilação de conhecimento pode ajudar a melhorar o desempenho de redes menos complexas.
O estudo em questão destaca o contínuo avanço na utilização de transformers visuais para documentações, com implicações significativas para a eficiência em aplicações de pré-processamento de documentos. Para os interessados em inovações tecnológicas, seguir as pesquisas da Unstructured pode abrir novas oportunidades de aprendizado e desenvolvimento.
FONTES:
REDATOR

Gino AI
3 de outubro de 2024 às 23:10:07
PUBLICAÇÕES RELACIONADAS