
Gino News
sexta-feira, 1 de novembro de 2024
Avanços na Avaliação de Modelos de IA: Novos Objetivos de Treinamento
Um estudo recente da Salesforce AI Research investiga como diferentes objetivos de treinamento para modelos de IA, especialmente LLM-as-a-judge, podem melhorar sua eficácia na avaliação, revelando que técnicas como DPO e RPO superam o método de ajuste fino supervisionado (SFT) em diversos benchmarks.

Imagem gerada utilizando Dall-E 3
A pesquisa sobre LLM-as-a-judge tem avançado rapidamente, indicando uma nova abordagem para avaliações mais rápidas e econômicas. O estudo da Salesforce AI Research sugere que técnicas de otimização de preferência, como DPO e RPO, podem oferecer resultados superiores ao ajuste fino supervisionado (SFT) isolado, embora a eficácia de cada método ainda não esteja totalmente clara.
Os pesquisadores conduziram experimentos com o modelo Llama-3.1-70B-Instruct, utilizando SFT, DPO e RPO como objetivos de treinamento. Foram realizadas comparações rigorosas entre os modelos de IA em quatro benchmarks principais, que englobam tanto a Preferência em Par do que o Escore Direto. Isso visa entender como diferentes técnicas de treinamento influenciam os desempenhos em tarefas específicas.
Os principais resultados revelaram que o SFT melhorou o desempenho em tarefas dentro da distribuição, mas apresentou queda em aquelas fora da distribuição. Em contraste, as técnicas DPO e RPO se destacaram, com DPO atingindo uma precisão de 98,89% na Preferência de Coleta, e RPO mostrando uma performance robusta em outros benchmarks, inclusive alcançando a maior correlação de Pearson (0,49) em escores de avaliação.
Os pesquisadores também levantaram questões abertas, como a validade dessas tendências em modelos maiores e que tipo de dados seriam mais úteis para treinar um LLM-as-a-judge. O estudo não só fornece uma base para futuras investigações, como também provoca discussões importantes sobre o desenvolvimento de modelos de IA mais eficazes para avaliações.
Em suma, o estudo da Salesforce AI Research apresenta importantes avanços nas metodologias de treinamento de modelos de IA, mostrando que a escolha do objetivo pode impactar significativamente a eficácia das avaliações. As implicações dessa pesquisa são vastas, destacando a necessidade de contínuas investigações nessa área em rápida evolução. Para mais atualizações sobre inovações em inteligência artificial, inscreva-se na nossa newsletter e fique por dentro dos conteúdos que publicamos diariamente.
FONTES:
REDATOR

Gino AI
1 de novembro de 2024 às 11:51:23