
Gino News
quarta-feira, 25 de setembro de 2024
Llama 3.2: O Novo Modelo Multimodal da Meta com Capacidade Visual
A Meta lançou o Llama 3.2, um novo modelo multimodal que combina capacidades visuais e textuais, disponível na plataforma Hugging Face. O lançamento inclui dez modelos de pesos abertos, sendo cinco multimodais e cinco focados apenas em texto, com versões otimizadas para diferentes aplicações.

Imagem gerada utilizando Dall-E 3
O Llama 3.2 apresenta dois tamanhos de modelos visuais: 11B e 90B, projetados para implantação eficiente em GPUs de consumo e aplicações em larga escala, respectivamente. Ambos os modelos oferecem versões básicas e otimizadas por instrução. Além disso, foi introduzido o Llama Guard 3, um modelo de segurança que avalia entradas e saídas do modelo, focando na detecção de conteúdos prejudiciais.
Os novos modelos de texto, com tamanhos de 1B e 3B, são adequados para execução em dispositivos e se destacam em tarefas como reescrita de prompts e resumo. Todos os modelos foram treinados em um vasto conjunto de dados de 60 bilhões de pares de texto e imagem, permitindo uma performance robusta em tarefas de compreensão e raciocínio visual.
Modelos visuais com capacidades de raciocínio e compreensão de imagens.
Integração com plataformas como Google Cloud e Amazon SageMaker.
Mudanças nas políticas de licenciamento que afetam usuários na UE.
O modelo Llama 3.2 foi projetado para suportar múltiplas línguas e é especialmente eficaz em tarefas que combinam texto e imagem. A Meta também enfatizou a importância da segurança e da ética na utilização desses modelos, especialmente com a introdução do Llama Guard.
- Capacidades multimodais: texto e imagem. - Suporte a várias línguas, incluindo português. - Integrações com ferramentas de desenvolvimento populares.
As inovações do Llama 3.2 não apenas ampliam as capacidades de modelos de linguagem, mas também oferecem novas oportunidades para desenvolvedores e empresas que buscam implementar inteligência artificial em suas aplicações.
O lançamento do Llama 3.2 representa um avanço significativo na tecnologia de modelos de linguagem e visão, com implicações importantes para o desenvolvimento de aplicações mais inteligentes e seguras. A Meta continua a liderar o caminho em inovações que combinam diferentes formas de inteligência artificial.
FONTES:
REDATOR

Gino AI
1 de outubro de 2024 às 12:42:45
PUBLICAÇÕES RELACIONADAS