top of page

Gino News

terça-feira, 11 de abril de 2023

Aceleração de Transformers Visuais para Compreensão de Documentos

Tecnologia Inteligência Artificial Inovação

Pesquisadores da Unstructured estão desenvolvendo melhorias em transformers visuais que visam acelerar a compreensão de documentos, uma tarefa que ainda apresenta altos custos computacionais, especialmente em imagens de grandes dimensões.

Imagem gerada utilizando Dall-E 3

Sistemas de compreensão de documentos baseados em deep learning utilizam transformers visuais para converter imagens documentais em representações textuais. No entanto, os custos associados a esses métodos continuam sendo elevados, o que dificulta sua implementação em ambientes de produção.


Diferente de classificações de imagens menores, a compreensão de documentos exige a manipulação de imagens maiores, o que pode resultar em perda de informações. Embora haja várias otimizações possíveis, muitas delas são específicas a determinadas arquiteturas de hardware. A equipe da Unstructured investiga soluções algorítmicas que não dependem de plataformas específicas.


Os transformers visuais enfrentam um desafio de custo quadrático em relação ao comprimento da entrada. Para aumentar a velocidade de processamento, algumas técnicas padrão de otimização, como quantização e pruning, podem oferecer um aumento de desempenho significativo. Outras abordagens, como o EfficientFormer, adaptam transformers visuais para ambientes móveis, mas frequentemente oferecem desempenho inferior em comparação com redes mais complexas.


Abordagens como atenção esparsa e decomposição das matrizes de atenção têm o potencial de reduzir os custos computacionais de forma significativa. Embora essas técnicas possam não ter sido implementadas em algumas das soluções atuais, sua aplicação na compreensão de documentos ainda é promissora. Por fim, o uso de distilação de conhecimento pode ajudar a melhorar o desempenho de redes menos complexas.


O estudo em questão destaca o contínuo avanço na utilização de transformers visuais para documentações, com implicações significativas para a eficiência em aplicações de pré-processamento de documentos. Para os interessados em inovações tecnológicas, seguir as pesquisas da Unstructured pode abrir novas oportunidades de aprendizado e desenvolvimento.


FONTES:

    1. Unstructured Blog

    2. EfficientFormer: Vision Transformers at MobileNet Speed

    3. Swin Transformer: Hierarchical vision transformer using shifted windows

    4. Sparse Transformers

    5. Performer

    REDATOR

    Gino AI

    3 de outubro de 2024 às 23:10:07

    PUBLICAÇÕES RELACIONADAS

    Create a 2D, vector-style artwork set in a clinical setting. On a white, textureless background, illustrate the scene with a flat and corporate aesthetic. A healthcare professional is preparing to administer an injection of lenacapavir to a diverse group of patients. The syringe is a visual symbol of the innovative treatment. The patients, representing a broad range of genders and descents such as Middle-Eastern female, Hispanic male, and South Asian transgender person, convey hope and are the beneficiaries of this advancement. The environment, symbolizing the seriousness of the treatment, is a doctor's office furnished with charts and graphs indicating the reduction in HIV infections due to the new treatment. Use a colour palette consisting of shades of blue and green to transmit trust and hope.

    Lenacapavir: Injeção Anual Promissora para Prevenção do HIV

    Create an image in a 2D, linear perspective that visualizes a user interacting with a large-scale language model within a digital environment. The image should be in a vector-based flat corporate design with a white, textureless background. Display charts that show comparisons between performance metrics of Length Controlled Policy Optimization (LCPO) models and traditional methods. Also, include reasoning flows to illustrate the model's decision-making process. To symbolize the real-time application of the model in business operations, include elements of a digital environment. Use cool colors to convey a sense of advanced technology and innovation.

    Nova Técnica Revoluciona Otimização de Raciocínio em Modelos de Linguagem

    A 2D vector-style image in corporate flat style on a white, textureless background. A diverse team of developers is sitting in a collaborative environment, embodying different descents: a Hispanic woman, a Middle-Eastern man, a Black woman, and a White man. They are actively discussing software improvements with their laptops opened, symbolizing a modern form of technological development. Sprinkled throughout the image are brightly colored elements: oranges symbolize creativity and innovation, while green elements represent growth and sustainability. Scattered within their workspace are gardening tools, metaphorically indicating their careful maintenance work during the 'Gardening Week' initiative by a fictional AI company named 'Sierra'. All elements reflect an ongoing effort to avoid past mistakes like the accumulation of technical debt.

    A Revolução do Desenvolvimento de Software: A Experiência do Gardening Week na Sierra

    Illustration in a vectorial, flat, and corporate style showing a diverse team of employees interacting with AI technology in a modern office setting. The team consists of a Caucasian man, a Hispanic woman, a Middle-Eastern man, and a Black woman. They're gathered around computers showcasing innovation and AI while also displaying a whiteboard with graphs symbolizing planning and collaboration. The modern office environment underlines the concept of a collaborative workspace. The whole scene is set against a white, textureless backdrop, following a 2D linear perspective to uphold the flat design of the illustration.

    Anthropic Lança Plataforma Colaborativa para Democratizar o Uso de IA em Empresas

    Fique por dentro das últimas novidades em IA

    Obtenha diariamente um resumo com as últimas notícias, avanços e pesquisas relacionadas a inteligência artificial e tecnologia.

    Obrigado pelo envio!

    logo genai

    GenAi Br © 2024

    • LinkedIn
    bottom of page