
Gino News
sexta-feira, 28 de fevereiro de 2025
Smol Models: A Revolução dos Modelos de Linguagem Compactos na IA
Os modelos de linguagem pequenos, como a família Smol desenvolvida pela Hugging Face, estão tornando a inteligência artificial mais acessível, especialmente em dispositivos de borda como smartphones. Entretanto, a qualidade dos conjuntos de dados utilizados para treinar esses modelos é crucial, já que eles são mais sensíveis a dados de treinamento e têm menos capacidade de memória.

Imagem gerada utilizando Dall-E 3
A Hugging Face lançou a família de modelos Smol, que inclui o SmolLM e SmolVLM, com o objetivo de criar inteligência artificial poderosa e acessível em dispositivos locais. O foco principal está em como esses modelos, especialmente o SmolLM2, são treinados usando conjuntos de dados de alta qualidade, que são indispensáveis devido à sua sensibilidade a dados de treinamento.
O SmolLM, lançado em julho de 2024, é projetado em três tamanhos diferentes (135M, 360M e 1.7B parâmetros) e é treinado com uma mistura de dados que inclui o SmolLM-Corpus, que contém mais de 28 bilhões de tokens de conteúdos variados. O SmolLM2, lançado em novembro de 2024, trouxe melhorias significativas em relação ao seu predecessor ao incorporar uma estratégia de treinamento mais refinada e a utilização de novos conjuntos de dados especializados.
As técnicas de treinamento adotadas para o SmolLM2 incluem distilação, quantização e uma abordagem de treinamento em múltiplas etapas, que é adaptada ao longo do processo. Isso inclui a avaliação contínua do desempenho dos modelos e a introdução gradual de novos dados de alta qualidade em áreas como matemática e programação.
O SmolLM2 se destaca pela utilização de conjuntos de dados especializados, como FineMath e Stack-Edu.
O modelo foi treinado em 11 trilhões de tokens, aumentando sua capacidade de interpretar e responder a tarefas complexas.
A extensão do contexto de 2K para 8K tokens melhora a realização de tarefas como resumos e leitura aprofundada.
A abordagem de treinamento em múltiplas etapas evita o overfitting e otimiza a performance.
O open-source tornou os modelos acessíveis para desenvolvedores e pesquisadores.
Embora o SmolLM2 tenha se mostrado um competidor robusto entre modelos compactos, ele ainda enfrenta desafios, como limitações em tarefas de raciocínio complexo e a dependência de dados sintéticos para o aprendizado de preferências. Esses fatores ressaltam a importância da pesquisa contínua para melhorar a eficácia dos modelos menores.
Em conclusão, a família de modelos Smol da Hugging Face representa um avanço significativo na utilização de modelos de linguagem menores e mais eficientes, destacando-se pela combinação de dados de alta qualidade e técnicas de treinamento inovadoras. Esses desenvolvimentos abrem novas possibilidades para a aplicação da inteligência artificial em dispositivos de borda. Para mais notícias sobre inovações em IA, inscreva-se na nossa newsletter e fique sempre atualizado com conteúdos relevantes!
FONTES:
REDATOR

Gino AI
28 de fevereiro de 2025 às 10:14:04
PUBLICAÇÕES RELACIONADAS




