top of page

Gino News

sábado, 19 de outubro de 2024

ColFlor: Inovação na Recuperação de Documentos Visuais sem OCR

Tecnologia Inteligência Artificial Inovação

Em outubro de 2024, pesquisadores introduziram o ColFlor, um modelo de recuperação de documentos visuais que dispensa o uso de OCR, alcançando eficiência sem comprometer a performance, com apenas 174 milhões de parâmetros, 17 vezes menos que seu predecessor, ColPali.

Imagem gerada utilizando Dall-E 3

O ColFlor foi desenvolvido em resposta às limitações dos modelos anteriores de recuperação de documentos, como o ColPali, que exigiam grandes recursos computacionais e frequentemente falhavam com erros na conversão de texto a partir de imagens (OCR). Com uma arquitetura reduzida, o ColFlor oferece um desempenho eficiente ao processar imagens diretamente, o que representa uma mudança significativa na forma como documentos PDF podem ser acessados e analisados.


Este modelo se destaca não apenas pelo seu tamanho, mas também pela velocidade de codificação. O ColFlor é 9.8 vezes mais rápido em codificação de consultas e 5.25 vezes mais rápido em codificação de imagens quando comparado ao ColPali, mantendo uma queda de apenas 1.8% na performance em documentos textuais ricos em inglês. Ele utiliza uma combinação de codificadores de visão e texto, otimizando a criação de embeddings que permitem uma busca mais ágil e precisa.


O sistema de recuperação de documentos do ColFlor é baseado em dois passos principais: indexação e consulta. Durante a indexação, o modelo gera embeddings para cada documento, que são armazenados para pesquisa futura. Durante a consulta, a entrada do usuário é codificada e comparada aos embeddings armazenados, aplicando operações de similaridade para retornar os resultados mais relevantes. Essa abordagem de interação tardia contextualizada permite um desempenho superior em comparação aos modelos tradicionais.


  1. ColFlor é 17 vezes menor que ColPali.

  2. Realiza codificação de consultas 9.8 vezes mais rápida.

  3. Codifica imagens 5.25 vezes mais rápida.

  4. Desempenho melhorado em conjuntos de dados textuais.

  5. Desenvolvimento contínuo para suporte multilíngue.

  6. Avaliação positiva nos benchmarks ViDoRe.


O ColFlor se mostra promissor para aplicações em cenários do mundo real, especialmente em contextos onde a eficiência computacional é crítica. Apesar de seu desempenho limitado em documentos em francês, o modelo se destaca em tarefas que envolvem documentos ricos em texto e figuras, com planos para treinar versões futuras que suportem melhor a interpretação de materiais visuais complexos.


- Eficácia reduzida em documentos em francês. - Potencial para aplicações em diversas indústrias. - Importância da eficiência computacional. - Continuidade na pesquisa e desenvolvimento.


Com isso, o ColFlor posiciona-se como uma alternativa acessível e eficiente para a recuperação de documentos visuais, especialmente para usuários que possuem limitações de recursos computacionais. O progresso nas capacidades do modelo demonstra uma evolução significativa na recuperação de informações e destaca a importância da pesquisa na área de análise visual de documentos.


O lançamento do ColFlor abre novas possibilidades na recuperação de documentos visuais, sinalizando um futuro promissor no campo da inteligência artificial e recuperação de dados. Os leitores são encorajados a acompanhar as inovações nesse espaço e conferir nossa newsletter para mais conteúdos atualizados sobre tecnologia e suas aplicações diárias.


FONTES:

    1. Hugging Face

    2. Demo ColFlor

    3. Código de Treinamento

    4. Código de Avaliação

    5. Artigo original de ColPali

    REDATOR

    Gino AI

    19 de outubro de 2024 às 12:34:48

    PUBLICAÇÕES RELACIONADAS

    Create a 2D, linear perspective image that echoes a corporate and tech-savvy feel. The backdrop is white and textureless, ornamented with an abstract representation of accompanying networks and circuits. Foreground highlights a futuristic interface populated with a group of AI agents, symbolizing the two points, diversity and unity. Interspersed are a variety of AI icons depicting various tasks they can perform. A robotic hand representation is also prominently displayed, symbolizing the supportive functions the system provides to users. Additionally, sprinkle the scene with performance graphs that illustrate the effectiveness and benchmarks of the multitasking AI system compared to competitors. Capture elements of Flat and Vector design styles in the composition.

    Manus: O Novo Sistema de IA que Promete Revolucionar Tarefas Autônomas

    Create an image in a 2D, linear perspective that visualizes a user interacting with a large-scale language model within a digital environment. The image should be in a vector-based flat corporate design with a white, textureless background. Display charts that show comparisons between performance metrics of Length Controlled Policy Optimization (LCPO) models and traditional methods. Also, include reasoning flows to illustrate the model's decision-making process. To symbolize the real-time application of the model in business operations, include elements of a digital environment. Use cool colors to convey a sense of advanced technology and innovation.

    Nova Técnica Revoluciona Otimização de Raciocínio em Modelos de Linguagem

    Illustrate a 2D, linear perspective image in a corporate, flat and vector style. The image has a textureless, white background. In the foreground, focus on a central figure who symbolizes a leadership role in AI, but not specifically Stephen Peacock. He is explaining the application of AI in game development. Include a visual context of the game development environment and a logo symbolizing an international game development provider, but not specifically the Keywords Studios logo.

    Keywords Studios Lança Soluções de IA para Desenvolvimento de Jogos

    Create a detailed 2D, linear and vectorial image in a flat, corporate style on a white non-textured background. The image should showcase the interface of an AI-assistant from a generic restaurant review platform, symbolised by a radiant logo in vibrant colors, similar to the Yelp logo but sufficiently different to avoid copyright issues. To illustrate the AI's functionalities and user interactions, please depict various individuals of diverse descents and genders engaging with the AI interface. Also include the depictions of application interfaces to highlight the technology involved.

    Yelp Inova com Assistente de IA: Desafios e Avanços na Plataforma

    Fique por dentro das últimas novidades em IA

    Obtenha diariamente um resumo com as últimas notícias, avanços e pesquisas relacionadas a inteligência artificial e tecnologia.

    Obrigado pelo envio!

    logo genai

    GenAi Br © 2024

    • LinkedIn
    bottom of page