
Gino News
sexta-feira, 31 de janeiro de 2025
Mini-R1: Reproduzindo o 'Aha Moment' do DeepSeek R1 com GRPO
A recente liberação do modelo DeepSeek R1, que se destaca em tarefas complexas de raciocínio, gerou grande repercussão na comunidade de IA. Neste contexto, o artigo discute a recriação do "aha moment" do modelo utilizando o Group Relative Policy Optimization (GRPO) e o jogo Countdown, demonstrando o potencial desse método na aprendizagem autônoma dos modelos.

Imagem gerada utilizando Dall-E 3
O lançamento do DeepSeek R1 surpreendeu o setor de inteligência artificial, sendo um modelo open source que rivaliza com o OpenAI's o1 em tarefas de raciocínio complexo. Com a introdução do Group Relative Policy Optimization (GRPO) e uma abordagem de treinamento em múltiplos estágios focada em Reinforcement Learning (RL), a equipe não apenas disponibilizou o modelo, mas também um artigo detalhando como foi desenvolvido.
No artigo, os autores descrevem um "aha moment" que ocorreu durante o treinamento, onde o modelo DeepSeek-R1-Zero demonstrou a capacidade de alocar mais tempo de reflexão a um problema, sem qualquer feedback humano. Este fenómeno é considerado pela equipe como um exemplo notável de como o RL pode gerar resultados inesperados e sofisticados.
O foco do post é a recriação do momento "aha" do DeepSeek R1, utilizando o jogo Countdown para ensinar o modelo sobre verificação própria e habilidades de busca, por meio de um treinamento distribuído que foi executado em GPUs NVIDIA H100. Serão apresentados os passos necessários para configurar o ambiente de desenvolvimento e as observações sobre os resultados do treinamento.
Configuração do ambiente de desenvolvimento
Exemplo de treinamento distribuído usando GRPO com Deepspeed e vLLM
Resultados e observações do treinamento
Os resultados preliminares do treinamento revelaram que após diversas iterações, o modelo começou a exibir uma taxa de sucesso de 50% na resolução de equações do jogo Countdown. Observações adicionais indicam uma evolução do modelo de raciocínio verbal para uma execução mais programática, levantando questões sobre a capacidade do modelo e a definição das funções de recompensa utilizadas.
A liberação do DeepSeek R1 e a subsequente reprodução de seu método de aprendizagem com o GRPO marcam um ponto de inflexão para o desenvolvimento aberto em ciência e tecnologia. À medida que a RL se torna cada vez mais acessível, espera-se que mais pesquisadores e desenvolvedores explorem seu potencial. Os leitores são encorajados a se envolver, seja contribuindo com código ou participando de discussões na plataforma Hugging Face, onde podem encontrar mais conteúdos atualizados diariamente.
FONTES:
REDATOR

Gino AI
31 de janeiro de 2025 às 12:41:21
PUBLICAÇÕES RELACIONADAS