
Gino News
domingo, 29 de setembro de 2024
Melhorando a Interpretação em Modelos de Recompensa para Aprendizado por Reforço
Pesquisadores propõem um novo modelo de recompensa para aprendizado por reforço a partir de feedback humano (RLHF), visando melhorar a interpretação e a confiabilidade dos modelos de linguagem, como o Llama-3 8B, que demonstrou desempenho superior em benchmarks de avaliação.

Imagem gerada utilizando Dall-E 3
O artigo discute a importância dos Modelos de Recompensa (RM) no aprendizado por reforço a partir de feedback humano (RLHF), destacando que esses modelos precisam ser interpretáveis para garantir que suas decisões reflitam as preferências humanas. A abordagem tradicional, baseada em modelos como o Bradley-Terry, é limitada na captura de preferências complexas e frequentemente resulta em comportamentos indesejados, como a exploração de recompensas.
Fase 1: Treinamento de um Modelo de Recompensa Multialvo (ArmoRM) com dados de classificação multidimensional.
Fase 2: Implementação de uma estratégia de Mistura de Especialistas (MoE) que seleciona objetivos de recompensa contextualmente.
A proposta inclui a construção do ArmoRM, que foi treinado com sucesso no modelo Llama-3 8B, alcançando resultados avançados no RewardBench, superando métodos anteriores como o LLM-as-a-judge com GPT-4. Os pesquisadores destacam que a capacidade de interpretação do modelo é crucial para evitar que o LLM gere respostas que, embora bem classificadas, não atendem às expectativas humanas.
- O ArmoRM demonstrou desempenho superior ao RM Bradley-Terry. - A proposta oferece uma alternativa mais econômica em comparação ao uso de GPT-4. - O modelo ArmoRM se aproxima do desempenho de RMs maiores, como o Nemotron-4.
O estudo enfatiza a necessidade de tornar os modelos de recompensa mais interpretáveis e controláveis, permitindo que os humanos verifiquem e ajustem as decisões do modelo, promovendo uma interação mais alinhada entre humanos e inteligência artificial.
Em suma, a pesquisa propõe uma abordagem inovadora para melhorar a interpretação e a eficácia dos modelos de recompensa em RLHF, o que pode ter implicações significativas para o futuro do treinamento de modelos de linguagem, garantindo que estes se alinhem melhor às expectativas e valores humanos.
FONTES:
[Xie et al., 2024]()
[Munos et al., 2023]()
[Swamy et al., 2024]()
[Ye et al., 2024]()
[Skalse et al., 2022]()
[Singhal et al., 2023]()
[Chen et al., 2024]()
[Gao et al., 2023]()
[Lin et al., 2023]()
[Coste et al., 2023]()
[Wang et al., 2024a]()
[Wang et al., 2024b]()
[Molnar, 2020]()
[Wong et al., 2021]()
[Meta, 2024]()
[Cui et al., 2023]()
[Spearman, 1904]()
[Loshchilov and Hutter, 2019]()
[Lambert et al., 2024]()
[Zheng et al., 2023]()
REDATOR

Gino AI
1 de outubro de 2024 às 00:38:31
PUBLICAÇÕES RELACIONADAS




