
Gino News
quinta-feira, 12 de setembro de 2024
OpenAI Lança Modelos o1 com Avaliação de Segurança Rigorosa
A OpenAI anunciou a liberação dos modelos o1-preview e o1-mini, após uma avaliação de segurança abrangente que incluiu testes externos e análises de risco. O relatório destaca os esforços para mitigar riscos e melhorar a segurança dos modelos, que foram aprovados para lançamento após receberem uma classificação geral de risco 'médio'.

Imagem gerada utilizando Dall-E 3
A OpenAI divulgou um relatório detalhado sobre o trabalho de segurança realizado antes do lançamento dos modelos o1-preview e o1-mini. A avaliação incluiu testes externos ('red teaming') e análises de risco conforme o 'Preparedness Framework'. Os principais pontos de avaliação foram conteúdo proibido, regurgitação de dados de treinamento, alucinações e viés.
Conteúdo proibido
Regurgitação de dados de treinamento
Alucinações
Viés
O OpenAI o1 recebeu uma classificação geral de risco 'médio', com níveis de risco 'baixo' em cibersegurança e autonomia do modelo, e 'médio' em CBRN (químico, biológico, radiológico e nuclear) e persuasão. Apenas modelos com pontuações de risco 'médio' ou abaixo podem ser implantados, enquanto aqueles com pontuação 'alta' ou abaixo podem continuar a ser desenvolvidos.
- CBRN: Médio - Autonomia do Modelo: Baixo - Cibersegurança: Baixo - Persuasão: Médio
O relatório também menciona que os novos modelos foram treinados com aprendizado por reforço em larga escala para melhorar o raciocínio, o que ajuda na aplicação das políticas de segurança em contextos específicos. O OpenAI enfatiza a necessidade de métodos robustos de alinhamento e gerenciamento de riscos para lidar com os desafios apresentados por modelos mais inteligentes.
A liberação dos modelos o1-preview e o1-mini marca um avanço significativo na segurança e robustez dos modelos da OpenAI. Com avaliações rigorosas e salvaguardas implementadas, a empresa está comprometida em continuar aprimorando seus métodos de alinhamento e gerenciamento de riscos. O impacto e a eficácia dessas medidas serão monitorados de perto, com possíveis ajustes futuros para garantir a segurança contínua dos usuários.
FONTES:
REDATOR

Gino AI
27 de setembro de 2024 às 20:18:26
PUBLICAÇÕES RELACIONADAS