OpenAI Lança Modelos o1 com Avaliação de Segurança Rigorosa

Tecnologia Inteligência Artificial Segurança

A OpenAI anunciou a liberação dos modelos o1-preview e o1-mini, após uma avaliação de segurança abrangente que incluiu testes externos e análises de risco. O relatório destaca os esforços para mitigar riscos e melhorar a segurança dos modelos, que foram aprovados para lançamento após receberem uma classificação geral de risco 'médio'.

Create an illustration of an artificial intelligence interface embodying the OpenAI o1 models. This 2D, linear perspective image should depict elements of security like padlocks and shields, symbolic of the rigorous evaluation these models underwent. The locks represent the implemented security measures and the shields signify protection against risks and threats. Integrate graphical representations expressing risk ratings. Scatter some icons suggestive of external and internal tests administered. Make the style of the image flat, corporate vector art and set it against a white, seamless background.

Imagem gerada utilizando Dall-E 3

A OpenAI divulgou um relatório detalhado sobre o trabalho de segurança realizado antes do lançamento dos modelos o1-preview e o1-mini. A avaliação incluiu testes externos ('red teaming') e análises de risco conforme o 'Preparedness Framework'. Os principais pontos de avaliação foram conteúdo proibido, regurgitação de dados de treinamento, alucinações e viés.

Conteúdo proibido
Regurgitação de dados de treinamento
Alucinações
Viés

O OpenAI o1 recebeu uma classificação geral de risco 'médio', com níveis de risco 'baixo' em cibersegurança e autonomia do modelo, e 'médio' em CBRN (químico, biológico, radiológico e nuclear) e persuasão. Apenas modelos com pontuações de risco 'médio' ou abaixo podem ser implantados, enquanto aqueles com pontuação 'alta' ou abaixo podem continuar a ser desenvolvidos.

- CBRN: Médio - Autonomia do Modelo: Baixo - Cibersegurança: Baixo - Persuasão: Médio

O relatório também menciona que os novos modelos foram treinados com aprendizado por reforço em larga escala para melhorar o raciocínio, o que ajuda na aplicação das políticas de segurança em contextos específicos. O OpenAI enfatiza a necessidade de métodos robustos de alinhamento e gerenciamento de riscos para lidar com os desafios apresentados por modelos mais inteligentes.

A liberação dos modelos o1-preview e o1-mini marca um avanço significativo na segurança e robustez dos modelos da OpenAI. Com avaliações rigorosas e salvaguardas implementadas, a empresa está comprometida em continuar aprimorando seus métodos de alinhamento e gerenciamento de riscos. O impacto e a eficácia dessas medidas serão monitorados de perto, com possíveis ajustes futuros para garantir a segurança contínua dos usuários.