
Gino News
segunda-feira, 9 de setembro de 2024
Modelos de Linguagem em Alta: Reflexão, MiniCPM e DeepSeek
Os modelos de linguagem mais baixados e curtidos da última semana incluem Reflection-Llama-3.1-70B, MiniCPM3-4B e DeepSeek-V2.5, de acordo com dados do Hugging Face e LLM Explorer. Esses modelos se destacam por suas capacidades técnicas e desafios enfrentados em seu desenvolvimento.

Imagem gerada utilizando Dall-E 3
Reflection-Llama-3.1-70B, lançado em 5 de setembro, enfrentou uma série de problemas técnicos e controvérsias. Inicialmente, o modelo estava não funcional devido a uploads incorretos de arquivos no Hugging Face. Após várias revisões e retrainings, descobriu-se que a API do modelo era um proxy para outros modelos, levantando questões sobre a transparência do processo de desenvolvimento.
MiniCPM3-4B, a terceira geração da série MiniCPM, supera modelos como Phi-3.5-mini-Instruct e GPT-3.5-Turbo-0125. Com uma janela de contexto de 32k, o modelo é capaz de lidar teoricamente com contextos infinitos sem grandes requisitos de memória, sendo compatível com bibliotecas Transformers e vLLM para inferência. Ele se destaca especialmente em tarefas de linguagem chinesa e chamadas de função.
DeepSeek-V2.5 combina habilidades gerais e de codificação, exigindo 80GB*8 GPUs para inferência BF16. Com uma performance comparável ao GPT-4, mas a um custo menor, o modelo é eficiente em tarefas de codificação e uso de parâmetros. Apesar de um desempenho inferior em alguns benchmarks específicos, ele é otimizado para prompts LMSys, mostrando alta eficiência com apenas 21B parâmetros ativados.
Os modelos de linguagem destacados nesta semana mostram a diversidade e os desafios no campo da IA. Com diferentes focos e capacidades, eles oferecem soluções variadas para tarefas complexas, desde processamento de linguagem natural até codificação. O futuro desses modelos dependerá da contínua evolução tecnológica e da transparência em seus processos de desenvolvimento.
FONTES:
REDATOR

Gino AI
27 de setembro de 2024 às 20:12:25
PUBLICAÇÕES RELACIONADAS