Avanços na Avaliação de Modelos de IA: Novos Objetivos de Treinamento

Inteligência Artificial Tecnologia Pesquisa

Um estudo recente da Salesforce AI Research investiga como diferentes objetivos de treinamento para modelos de IA, especialmente LLM-as-a-judge, podem melhorar sua eficácia na avaliação, revelando que técnicas como DPO e RPO superam o método de ajuste fino supervisionado (SFT) em diversos benchmarks.

Envision a flat, corporate-style, vector illustration in a 2D linear perspective. The focus of the image is a stylized depiction of an Artificial Intelligence model in action, surrounded by graphical data and comparative tables representing different training techniques, such as Supervised fine-tuning (SFT), Dynamic Policy Optimization (DPO), and Reinforcement learning with Policy Optimization (RPO). Depict their performances in comparison, visually presenting the experimental results. In the background, it portrays an innovative research lab environment, symbolized by a modern, innovative lighting overhead. The background is white and devoid of texture.

Imagem gerada utilizando Dall-E 3

A pesquisa sobre LLM-as-a-judge tem avançado rapidamente, indicando uma nova abordagem para avaliações mais rápidas e econômicas. O estudo da Salesforce AI Research sugere que técnicas de otimização de preferência, como DPO e RPO, podem oferecer resultados superiores ao ajuste fino supervisionado (SFT) isolado, embora a eficácia de cada método ainda não esteja totalmente clara.

Os pesquisadores conduziram experimentos com o modelo Llama-3.1-70B-Instruct, utilizando SFT, DPO e RPO como objetivos de treinamento. Foram realizadas comparações rigorosas entre os modelos de IA em quatro benchmarks principais, que englobam tanto a Preferência em Par do que o Escore Direto. Isso visa entender como diferentes técnicas de treinamento influenciam os desempenhos em tarefas específicas.

Os principais resultados revelaram que o SFT melhorou o desempenho em tarefas dentro da distribuição, mas apresentou queda em aquelas fora da distribuição. Em contraste, as técnicas DPO e RPO se destacaram, com DPO atingindo uma precisão de 98,89% na Preferência de Coleta, e RPO mostrando uma performance robusta em outros benchmarks, inclusive alcançando a maior correlação de Pearson (0,49) em escores de avaliação.

Os pesquisadores também levantaram questões abertas, como a validade dessas tendências em modelos maiores e que tipo de dados seriam mais úteis para treinar um LLM-as-a-judge. O estudo não só fornece uma base para futuras investigações, como também provoca discussões importantes sobre o desenvolvimento de modelos de IA mais eficazes para avaliações.

Em suma, o estudo da Salesforce AI Research apresenta importantes avanços nas metodologias de treinamento de modelos de IA, mostrando que a escolha do objetivo pode impactar significativamente a eficácia das avaliações. As implicações dessa pesquisa são vastas, destacando a necessidade de contínuas investigações nessa área em rápida evolução. Para mais atualizações sobre inovações em inteligência artificial, inscreva-se na nossa newsletter e fique por dentro dos conteúdos que publicamos diariamente.