Mistral NeMo 12B: Novo Modelo de Linguagem Ganha Destaque na Comunidade de IA

Tecnologia Inteligência Artificial Modelos de Linguagem

O modelo de linguagem Mistral NeMo 12B, desenvolvido em colaboração com a NVIDIA, está gerando entusiasmo na comunidade de inteligência artificial por sua capacidade de operar eficientemente em GPUs de consumo e seu desempenho superior em várias línguas. Lançado recentemente, o modelo já está recebendo feedback positivo de profissionais da área.

Imagem gerada utilizando Dall-E 3

O Mistral NeMo 12B é um modelo de 12 bilhões de parâmetros com uma janela de contexto de até 128 mil tokens, projetado para substituir o modelo anterior Mistral 7B. Disponível em duas versões, uma base pré-treinada e outra ajustada para instruções, o modelo é otimizado para aplicações globais e multilíngues. Ele utiliza um novo tokenizador chamado Tekken, que comprime texto natural e código-fonte de maneira mais eficiente que seu antecessor.

O modelo passou por um avançado processo de ajuste fino e alinhamento, mostrando melhorias significativas em seguir instruções precisas, raciocinar, lidar com conversas de múltiplas etapas e gerar código. A capacidade de manter coerência em contextos de até 128 mil tokens e, em alguns casos, até 235 mil tokens, foi particularmente elogiada, embora a qualidade caia quando o contexto é estendido demais.

Os testes iniciais, realizados em GPUs NVIDIA RTX 4090 usando a plataforma ExLLaMA V2, indicam que o modelo oferece desempenho impressionante com pesos de precisão de 8 bits. A versão ajustada para instruções mostrou-se especialmente útil para aplicações que requerem geração de linguagem mais flexível e não censurada, como escrita criativa e jogos de interpretação de papéis.

Em resumo, o Mistral NeMo 12B está rapidamente ganhando popularidade na comunidade de IA, especialmente entre aqueles que trabalham com aplicações criativas e abertas. Sua capacidade de manter coerência em longos contextos e a eficiência em GPUs de consumo o tornam uma adição valiosa ao campo. A expectativa é que mais experimentos e ajustes futuros possam explorar ainda mais seu potencial.