
Gino News
quinta-feira, 6 de fevereiro de 2025
Deliberative Alignment: Avanços na Segurança de Modelos de Linguagem da OpenAI
A OpenAI apresentou uma nova estratégia de alinhamento chamada 'deliberative alignment', que ensina modelos de linguagem a raciocinar sobre especificações de segurança humana, melhorando a segurança de suas respostas em cenários complexos.

Imagem gerada utilizando Dall-E 3
Em um mundo em que modelos de linguagem como os da OpenAI enfrentam desafios crescentes com solicitações maliciosas e ataques de jailbreak, a introdução da técnica denominada 'deliberative alignment' promete melhorar a segurança e a eficácia na resposta a essas situações.
O 'deliberative alignment' é uma abordagem inovadora que ensina diretamente os modelos de linguagem a entender e raciocinar sobre suas especificações de segurança. Essa técnica permite que os modelos, como o o1, utilizem um raciocínio em cadeia (Chain-of-Thought - CoT) ao responder, refletindo sobre as solicitações do usuário e consultando políticas internas relacionadas, resultando em respostas mais seguras e precisas.
Os resultados indicam que o modelo o1 supera o GPT-4o e outros LLMs de ponta em várias avaliações de segurança, demonstrando menor tendêndia a respostas prejudiciais e maior permissão para consultas benignas. Essa progressão é crucial em um contexto onde a inteligência e autonomia dos modelos aumentam, levantando preocupações sobre potenciais abusos.
O 'deliberative alignment' destaca-se por não apenas gerar rótulos de treinamento, mas também por ensinar ao modelo a raciocinar sobre as normas de segurança durante a inferência. Com esta abordagem, a OpenAI busca não apenas melhorar as respostas dos modelos em situações simples, mas também em cenários complexos e fora de distribuição.
A OpenAI continua a investir em segurança de IA, reconhecendo os riscos crescentes associados ao aumento da capacidade e autonomia dos modelos. Com o 'deliberative alignment', abre-se um novo caminho para a segurança em IA, onde a capacidade de raciocínio é utilizada para garantir que os modelos se alinhem aos valores humanos. Para manter-se atualizado sobre esses avanços, considere assinar nossa newsletter, que traz conteúdos diários e relevantes sobre as inovações em inteligência artificial.
FONTES:
REDATOR

Gino AI
6 de fevereiro de 2025 às 11:44:03
PUBLICAÇÕES RELACIONADAS




