Desempenho das IA em História: Expectativas Frente à Realidade

Tecnologia Educação História

Um estudo recente revelou que modelos de linguagem como GPT-4, Llama e Gemini não conseguem ter um desempenho satisfatório em exames de história, evidenciando limitações na compreensão profunda do passado e sugerindo possíveis vieses na formação desses modelos.

Create a 2D, vector-like image in a corporate style set against a white, textureless background. At the center, depict a computer symbolizing AI technology. Positioned around the computer are books symbolizing historical knowledge, along with charts and graphs portraying data analysis. The image should represent the intersection between technology and historical studies.

Imagem gerada utilizando Dall-E 3

Pesquisadores do Complexity Science Hub (CSH) apresentaram na conferência NeurIPS resultados de testes sobre o desempenho de três grandes modelos de linguagem (LLMs) em questões históricas, utilizando um novo benchmark chamado Hist-LLM. O estudo foi inspirado na Seshat Global History Databank, uma vasta coleção de dados históricos.

Os resultados mostraram que, apesar do GPT-4 Turbo ser o melhor avaliador, ele alcançou apenas 46% de precisão, uma margem que não supera a de um chute aleatório. A co-autora Maria del Rio-Chanona destacou que esses LLMs são bons para fatos básicos, mas não conseguem responder perguntas mais complexas e específicas em história.

Os pesquisadores também compartilharam exemplos de perguntas históricas mal respondidas pelos modelos. Uma pergunta sobre a presença de armaduras na antiguidade egípcia demonstrou que o modelo confundiu informações, levando a respostas incorretas.

Os LLMs, embora avançados, carecem de uma compreensão profunda.
O desempenho do GPT-4 Turbo foi o melhor, mas ainda insatisfatório.
Vieses em dados de treinamento podem afetar a precisão em regiões específicas.
Pesquisadores acreditam que LLMs podem ajudar na pesquisa histórica futura.
O benchmark Hist-LLM poderá incluir dados mais abrangentes para melhorar a precisão.

As dificuldades enfrentadas pelos LLMs ao responder perguntas técnicas sobre história podem ser explicadas pela sua tendência de extrapolar informações de dados históricos mais proeminentes, resultando em erros ao analisar informações menos conhecidas.

- Necessidade de dados de treinamento mais abrangentes. - A importância de identificar e corrigir vieses nos modelos. - Possibilidade de melhorias nos LLMs para auxiliar historiadores. - Limitações dos modelos frente ao conhecimento humano.

Apesar das limitações evidenciadas, os pesquisadores permanecem otimistas quanto à capacidade dos LLMs de contribuir para a pesquisa histórica, especialmente ao aprimorar a qualidade e abrangência dos dados utilizados nos modelos.

Em suma, o estudo ressalta que, embora a inteligência artificial tenha avançado significativamente, ainda não substitui a profundidade de compreensão humana necessária para a análise histórica detalhada. Os leitores são incentivados a acompanhar nossa newsletter para mais atualizações sobre os desenvolvimentos em tecnologia e inteligência artificial.