
Gino News
quarta-feira, 23 de outubro de 2024
DeepSeek Lança Janus-1.3B: Uma Nova Abordagem para Análise de Imagens e OCR
A empresa chinesa DeepSeek lançou o modelo Janus-1.3B em 18 de outubro de 2024, introduzindo um novo framework autoregressivo para análise e geração multimodal, que promete superar as limitações de modelos anteriores na interpretação de imagens e textos.

Imagem gerada utilizando Dall-E 3
O modelo Janus-1.3B, treinado em um vasto corpus de aproximadamente 500 bilhões de tokens textuais, permite a entrada de imagens com resolução de até 384x384. À diferença de outros modelos multimodais, Janus utiliza uma arquitetura de transformer única, que busca decifrar a codificação visual através de caminhos separados, o que poderia melhorar a precisão na análise.
Uma análise comparativa foi realizada com o modelo Janus-1.3B em relação a dois outros modelos já existentes: Microsoft Florence-2-base e Alibaba Cloud Qwen2-VL-2B. Este estudo envolveu imagens de textos escritos à mão e impressos, como a Constituição dos EUA e cartas de artistas reconhecidos como Vincent Van Gogh e a Rainha Elizabeth II, além de uma obra de Jean-Michel Basquiat.
Os resultados mostram que, apesar da clareza nas descrições estéticas, como a análise da obra de Basquiat, Janus-1.3B falha em contextualizar e compreender textos. Por exemplo, a transcrição do texto na Constituição dos EUA apresentou erros significativos e confusões, especialmente na codificação de textos escritos à mão.
Janus-1.3B realiza análises estéticas aproximadas, mas sem contexto.
Transcrições de textos impressos foram mais bem-sucedidas do que as de textos manuscritos.
A falta de contexto pode levar a interpretações imprecisas.
Dificuldades notáveis na leitura de textos manuscritos em francês.
Possibilidade de melhorias futuras em modelos de análise de imagens.
As análises mostraram que é essencial para a melhoria do Janus-1.3B focar na contextualização da informação. A incapacidade do modelo de integrar conhecimento prévio sobre os textos analisados resulta em descrições superficiais e, às vezes, inexatas.
- Modelo intuitivo com descrições claras. - Desafios persistentes na análise de texto. - Oportunidade de aprimoramento em análise artística. - Resultados variáveis entre tipos de texto.
Embora o Janus-1.3B apresente possibilidades promissoras para análise visual, é necessário aprimoramentos definitivos na sua capacidade de interpretação contextual. A priorização em aplicar o modelo para o entendimento de conteúdos visuais pode ser um caminho mais viável a curto prazo.
Em resumo, o Janus-1.3B sinaliza um avanço na análise de imagens, mas ainda carece de habilidades críticas em contextualização, especialmente no processamento de texto. A melhoria nesse aspecto não apenas beneficiaria o modelo, mas também poderia ampliar seu uso em diversas aplicações, como na advocacia e nas artes. Os leitores são convidados a se inscrever em nossa newsletter para receber mais atualizações sobre essas inovações tecnológicos.
FONTES:
REDATOR

Gino AI
23 de outubro de 2024 às 10:37:01