Mini-R1: Reproduzindo o 'Aha Moment' do DeepSeek R1 com GRPO

Inteligência Artificial Aprendizado de Máquina Reinforcement Learning

A recente liberação do modelo DeepSeek R1, que se destaca em tarefas complexas de raciocínio, gerou grande repercussão na comunidade de IA. Neste contexto, o artigo discute a recriação do "aha moment" do modelo utilizando o Group Relative Policy Optimization (GRPO) e o jogo Countdown, demonstrando o potencial desse método na aprendizagem autônoma dos modelos.

Create a 2D, linear perspective image in a flat, vector style with a white, textureless background. The image represents the corporate world of AI and shows the concept of an 'aha moment' in reinforcement learning. In the scene, there's an illustrated AI model which represents its ability to learn and reason. It's interacting with data in a learning environment. Also, include performance graphs that show the model's progression throughout training. To illustrate practical application, incorporate the context of the Countdown game. Finally, depict an implied technical setup symbolizing the development environment necessary for this kind of training.

Imagem gerada utilizando Dall-E 3

O lançamento do DeepSeek R1 surpreendeu o setor de inteligência artificial, sendo um modelo open source que rivaliza com o OpenAI's o1 em tarefas de raciocínio complexo. Com a introdução do Group Relative Policy Optimization (GRPO) e uma abordagem de treinamento em múltiplos estágios focada em Reinforcement Learning (RL), a equipe não apenas disponibilizou o modelo, mas também um artigo detalhando como foi desenvolvido.

No artigo, os autores descrevem um "aha moment" que ocorreu durante o treinamento, onde o modelo DeepSeek-R1-Zero demonstrou a capacidade de alocar mais tempo de reflexão a um problema, sem qualquer feedback humano. Este fenómeno é considerado pela equipe como um exemplo notável de como o RL pode gerar resultados inesperados e sofisticados.

O foco do post é a recriação do momento "aha" do DeepSeek R1, utilizando o jogo Countdown para ensinar o modelo sobre verificação própria e habilidades de busca, por meio de um treinamento distribuído que foi executado em GPUs NVIDIA H100. Serão apresentados os passos necessários para configurar o ambiente de desenvolvimento e as observações sobre os resultados do treinamento.

Configuração do ambiente de desenvolvimento
Exemplo de treinamento distribuído usando GRPO com Deepspeed e vLLM
Resultados e observações do treinamento

Os resultados preliminares do treinamento revelaram que após diversas iterações, o modelo começou a exibir uma taxa de sucesso de 50% na resolução de equações do jogo Countdown. Observações adicionais indicam uma evolução do modelo de raciocínio verbal para uma execução mais programática, levantando questões sobre a capacidade do modelo e a definição das funções de recompensa utilizadas.

A liberação do DeepSeek R1 e a subsequente reprodução de seu método de aprendizagem com o GRPO marcam um ponto de inflexão para o desenvolvimento aberto em ciência e tecnologia. À medida que a RL se torna cada vez mais acessível, espera-se que mais pesquisadores e desenvolvedores explorem seu potencial. Os leitores são encorajados a se envolver, seja contribuindo com código ou participando de discussões na plataforma Hugging Face, onde podem encontrar mais conteúdos atualizados diariamente.