Nova Iniciativa para Avaliação de Modelos de IA por Terceiros

Tecnologia Inteligência Artificial Segurança

Uma nova iniciativa foi lançada para financiar avaliações de modelos de IA desenvolvidas por organizações terceirizadas, com o objetivo de medir capacidades avançadas e riscos associados. A iniciativa busca suprir a demanda crescente por avaliações de alta qualidade e relevância para a segurança, beneficiando todo o ecossistema de IA.

Generate a 2D, flat, corporate-style, vector image on a blank white, textureless background. The image should show a robot holding a magnifying glass, symbolizing the meticulous evaluation of AI models. Include icons of a padlock and a shield to represent security and protection. There should also be an upward-pointing growth chart to indicate advancement and development in the AI field. Incorporate a world map with connections, demonstrating global collaboration in AI evaluation. The color palette should use shades of blue and green, to convey trust and innovation.

Imagem gerada utilizando Dall-E 3

A Anthropic anunciou uma nova iniciativa para financiar avaliações de modelos de IA desenvolvidas por terceiros. O objetivo é criar um ecossistema robusto de avaliações que possa medir com precisão as capacidades avançadas e os riscos dos modelos de IA. A iniciativa visa suprir a demanda crescente por avaliações de alta qualidade e relevância para a segurança, beneficiando todo o ecossistema de IA.

Cibersegurança: Avaliações que medem a capacidade dos modelos de IA em operações cibernéticas.
Riscos CBRN: Avaliações que analisam a capacidade dos modelos de IA em criar ameaças químicas, biológicas, radiológicas e nucleares.
Autonomia dos Modelos: Avaliações que medem a operação autônoma dos modelos de IA em pesquisa e desenvolvimento, comportamentos autônomos avançados e auto-replicação.
Outros Riscos de Segurança Nacional: Avaliações que identificam e medem riscos emergentes relacionados à segurança nacional.
Manipulação Social: Avaliações que medem a capacidade dos modelos de IA em amplificar ameaças de persuasão, como desinformação e manipulação.

Além das avaliações focadas em segurança, a iniciativa busca desenvolver métricas que ofereçam uma compreensão mais abrangente das capacidades avançadas dos modelos e critérios de segurança relevantes. Isso inclui áreas como ciência avançada, recusa e identificação de conteúdos nocivos, avaliações multilíngues e impactos sociais.

- Plataformas de desenvolvimento de avaliações sem código: Ferramentas que permitem que especialistas em assuntos desenvolvam avaliações robustas sem necessidade de habilidades de codificação. - Avaliações para classificação de modelos: Melhorar a capacidade dos modelos de revisar e pontuar saídas de outros modelos. - Ensaios de impacto: Medir o impacto dos modelos por meio de ensaios controlados, comparando o desempenho de tarefas com e sem acesso ao modelo de IA.

A Anthropic convida propostas de avaliação através de um formulário de inscrição e oferece diversas opções de financiamento. A equipe da Anthropic revisará as submissões continuamente e oferecerá orientação para maximizar o impacto das avaliações desenvolvidas.

A iniciativa da Anthropic para financiar avaliações de modelos de IA por terceiros promete elevar os padrões de segurança e eficácia no campo da IA. Com um foco em áreas críticas como cibersegurança, riscos CBRN e manipulação social, a iniciativa busca criar ferramentas valiosas para todo o ecossistema de IA. O sucesso dessa iniciativa pode definir um novo padrão na avaliação de IA, promovendo um desenvolvimento mais seguro e responsável da tecnologia.