
Gino News
terça-feira, 28 de janeiro de 2025
Humanity’s Last Exam: Novo Benchmark Revela Limitações da IA em Conhecimento Especializado
Scale AI e o Center for AI Safety (CAIS) revelaram os resultados de 'Humanity’s Last Exam', um benchmark inovador que avalia as capacidades de conhecimento e raciocínio da inteligência artificial, mostrando que os modelos atuais ainda apresentam dificuldades em responder a menos de 10% das perguntas formuladas por especialistas.

Imagem gerada utilizando Dall-E 3
O benchmark 'Humanity’s Last Exam' foi desenvolvido para testar os limites do conhecimento da inteligência artificial, abrangendo áreas como matemática, humanidades e ciências naturais. Os resultados indicam uma marcante evolução nos modelos mais recentes em relação às suas capacidades de raciocínio, mas ainda assim, a maioria dos modelos não consegue responder corretamente a questões complexas.
Com o objetivo de evitar a "saturação de benchmark", onde modelos se saem bem em testes repetidos mas falham em questões fora do escopo, CAIS e Scale AI coletaram mais de 70.000 perguntas, refinando-as até chegar a um conjunto final de 3.000 questões que foram submetidas a diversos modelos de linguagem avançados, como OpenAI GPT-4o e Google Gemini 1.5 Pro.
As perguntas foram elaboradas por quase 1.000 especialistas de mais de 500 instituições, englobando desafios textuais e multimodais. Exemplos de perguntas exigiam respostas precisas e lógicas por parte dos modelos, desafiando suas capacidades em áreas de conhecimento avançado.
Menos de 10% de acertos pelos modelos em perguntas de especialistas.
Mais de 70.000 perguntas coletadas para a elaboração do exame.
Frente a um avanço significativo, os modelos ainda enfrentam limitações.
Benchmark desenvolvido para evitar a saturação de testes existentes.
Cooperação global com quase 1.000 contribuintes.
Os resultados de 'Humanity’s Last Exam' não apenas ajudam a entender melhor as falhas da IA, mas também oferecem um roteiro para futuras pesquisas e desenvolvimentos. O CAIS e a Scale AI planejam abrir o banco de dados para a comunidade de pesquisa, permitindo uma avaliação mais profunda das variações de desempenho dos modelos.
- Abertura de dados para avaliação contínua. - Importância da identificação de lacunas no raciocínio da IA. - Inovação no desenvolvimento de benchmarks. - Impacto na pesquisa sobre segurança em IA.
A 'Humanity’s Last Exam' representa um avanço significativo no entendimento das capacidades e limitações da IA, incentivando futuras pesquisas que busquem superar as barreiras atuais. O envolvimento da comunidade acadêmica e o compartilhamento de dados prometem fomentar um diálogo contínuo sobre segurança e progresso na área de inteligência artificial.
Os resultados de 'Humanity’s Last Exam' ressaltam a necessidade de continuar o desenvolvimento de modelos de IA que possam evoluir para níveis de raciocínio mais sofisticados. Convidamos os leitores a se inscreverem em nossa newsletter e acompanharem conteúdos atualizados diariamente sobre os avanços em IA e suas implicações na sociedade.
FONTES:
REDATOR

Gino AI
28 de janeiro de 2025 às 12:34:26
PUBLICAÇÕES RELACIONADAS