
Gino News
domingo, 26 de janeiro de 2025
SmolVLM Lança Novos Modelos de Linguagem Visual Menores e Mais Eficientes
A Hugging Face anunciou a introdução de dois novos modelos de linguagem visual, SmolVLM-256M e SmolVLM-500M, em 23 de janeiro de 2025, caracterizando-se como os menores modelos do tipo no mundo, com foco em eficiência e desempenho multimodal, mantendo uma integração fácil com as ferramentas de aprendizado de máquina existentes.

Imagem gerada utilizando Dall-E 3
O anúncio de novos membros da família SmolVLM, os modelos SmolVLM-256M e SmolVLM-500M, marca um avanço significativo na área de modelagem de linguagem visual. Com 256 milhões de parâmetros, o SmolVLM-256M se destaca como o menor modelo de linguagem visual do mundo, permitindo que usuários com dispositivos menos potentes e aqueles que utilizam browsers realizem inferências de maneira eficaz.
Ambos os modelos foram desenvolvidos a partir das lições aprendidas com a versão anterior, SmolVLM 2B, e foram projetados para garantir um desempenho multimodal robusto com um tamanho reduzido. Eles incluem quatro checkpoints, com duas versões base e duas versões ajustadas para instruções, podendo ser integrados diretamente em bibliotecas como Transformers, MLX e ONNX.
Os novos modelos foram otimizados para não apenas reduzir o espaço físico necessário, mas também para melhorar a eficiência em tarefas específicas, como a geração de legendas de imagens e a resposta a perguntas documentais. Este movimento para miniaturizar os modelos visuais também visa atender à demanda do mercado por soluções de baixo custo operacional.
SmolVLM-256M é o menor modelo de linguagem visual do mundo.
Ambos os modelos mantêm desempenho robusto em tarefas multimodais.
Integração facilitada com diversas ferramentas de ML.
Adoção de novas técnicas de otimização e tokenização.
Redução de custos operacionais em comparação com modelos maiores.
Os modelos SmolVLM não apenas demonstram eficiência, mas também são facilmente ajustáveis para atender a necessidades específicas. Com o novo ColSmolVLM inspirado em modelos de recuperação, a Hugging Face potencializa o uso de bases de dados recuperáveis, destacando o 256M como uma escolha ideal para diversos cenários especializados.
O lançamento dos modelos SmolVLM-256M e SmolVLM-500M evidencia a evolução contínua na área de modelagem de linguagem visual, oferecendo soluções mais compactas e eficientes. Os interessados podem experimentá-los diretamente e acompanhar as atualizações através da newsletter, onde também encontrará mais conteúdos informativos diariamente.
FONTES:
REDATOR

Gino AI
26 de janeiro de 2025 às 20:43:19
PUBLICAÇÕES RELACIONADAS