top of page

Gino News

sexta-feira, 1 de novembro de 2024

Avanços na Avaliação de Modelos de IA: Novos Objetivos de Treinamento

Inteligência Artificial Tecnologia Pesquisa

Um estudo recente da Salesforce AI Research investiga como diferentes objetivos de treinamento para modelos de IA, especialmente LLM-as-a-judge, podem melhorar sua eficácia na avaliação, revelando que técnicas como DPO e RPO superam o método de ajuste fino supervisionado (SFT) em diversos benchmarks.

Envision a flat, corporate-style, vector illustration in a 2D linear perspective. The focus of the image is a stylized depiction of an Artificial Intelligence model in action, surrounded by graphical data and comparative tables representing different training techniques, such as Supervised fine-tuning (SFT), Dynamic Policy Optimization (DPO), and Reinforcement learning with Policy Optimization (RPO). Depict their performances in comparison, visually presenting the experimental results. In the background, it portrays an innovative research lab environment, symbolized by a modern, innovative lighting overhead. The background is white and devoid of texture.

Imagem gerada utilizando Dall-E 3

A pesquisa sobre LLM-as-a-judge tem avançado rapidamente, indicando uma nova abordagem para avaliações mais rápidas e econômicas. O estudo da Salesforce AI Research sugere que técnicas de otimização de preferência, como DPO e RPO, podem oferecer resultados superiores ao ajuste fino supervisionado (SFT) isolado, embora a eficácia de cada método ainda não esteja totalmente clara.


Os pesquisadores conduziram experimentos com o modelo Llama-3.1-70B-Instruct, utilizando SFT, DPO e RPO como objetivos de treinamento. Foram realizadas comparações rigorosas entre os modelos de IA em quatro benchmarks principais, que englobam tanto a Preferência em Par do que o Escore Direto. Isso visa entender como diferentes técnicas de treinamento influenciam os desempenhos em tarefas específicas.


Os principais resultados revelaram que o SFT melhorou o desempenho em tarefas dentro da distribuição, mas apresentou queda em aquelas fora da distribuição. Em contraste, as técnicas DPO e RPO se destacaram, com DPO atingindo uma precisão de 98,89% na Preferência de Coleta, e RPO mostrando uma performance robusta em outros benchmarks, inclusive alcançando a maior correlação de Pearson (0,49) em escores de avaliação.


Os pesquisadores também levantaram questões abertas, como a validade dessas tendências em modelos maiores e que tipo de dados seriam mais úteis para treinar um LLM-as-a-judge. O estudo não só fornece uma base para futuras investigações, como também provoca discussões importantes sobre o desenvolvimento de modelos de IA mais eficazes para avaliações.


Em suma, o estudo da Salesforce AI Research apresenta importantes avanços nas metodologias de treinamento de modelos de IA, mostrando que a escolha do objetivo pode impactar significativamente a eficácia das avaliações. As implicações dessa pesquisa são vastas, destacando a necessidade de contínuas investigações nessa área em rápida evolução. Para mais atualizações sobre inovações em inteligência artificial, inscreva-se na nossa newsletter e fique por dentro dos conteúdos que publicamos diariamente.


FONTES:

    1. Salesforce AI Research

    2. Atla AI Blog

    REDATOR

    Gino AI

    1 de novembro de 2024 às 11:51:23

    PUBLICAÇÕES RELACIONADAS

    Create a 2D, linear perspective image that echoes a corporate and tech-savvy feel. The backdrop is white and textureless, ornamented with an abstract representation of accompanying networks and circuits. Foreground highlights a futuristic interface populated with a group of AI agents, symbolizing the two points, diversity and unity. Interspersed are a variety of AI icons depicting various tasks they can perform. A robotic hand representation is also prominently displayed, symbolizing the supportive functions the system provides to users. Additionally, sprinkle the scene with performance graphs that illustrate the effectiveness and benchmarks of the multitasking AI system compared to competitors. Capture elements of Flat and Vector design styles in the composition.

    Manus: O Novo Sistema de IA que Promete Revolucionar Tarefas Autônomas

    Create an image in a 2D, linear perspective that visualizes a user interacting with a large-scale language model within a digital environment. The image should be in a vector-based flat corporate design with a white, textureless background. Display charts that show comparisons between performance metrics of Length Controlled Policy Optimization (LCPO) models and traditional methods. Also, include reasoning flows to illustrate the model's decision-making process. To symbolize the real-time application of the model in business operations, include elements of a digital environment. Use cool colors to convey a sense of advanced technology and innovation.

    Nova Técnica Revoluciona Otimização de Raciocínio em Modelos de Linguagem

    Imagine a 2D, vector-style, corporate-themed image representing the interoperability initiative among artificial intelligence agents. The scene features a white, textureless background to focus on the primary elements. Portray icons associated with unidentifiable companies to symbolize the participants in the initiative. Each of the icons should be distinct and connected with visual cables, representing the communication and cooperation amongst these AI agents. Lastly, implement a subtly digital environment suggesting the technological space where these entities function.

    AGNTCY: A Nova Iniciativa para Interoperabilidade entre Agentes de IA

    Creatio, a Boston-based CRM and workflow automation company, has announced its new AI-native CRM system. Presenting a 2D, linear vector illustration in a corporate, flat style with a non-textured white background, it highlights a futuristic CRM interface. An interactive chatbot, symbolizing the new interactive platform, is placed centrally. There are charts symbolizing increased efficiency and automation in the background. Hints of mordern and innovative blue and green colors are used in the design. Users of diverse descent and different genders are shown interacting with the system, emphasizing personalization and user experience.

    Creatio Revoluciona o CRM com Plataforma Nativa de IA

    Fique por dentro das últimas novidades em IA

    Obtenha diariamente um resumo com as últimas notícias, avanços e pesquisas relacionadas a inteligência artificial e tecnologia.

    Obrigado pelo envio!

    logo genai

    GenAi Br © 2024

    • LinkedIn
    bottom of page