
Gino News
sábado, 11 de janeiro de 2025
Novos benchmarks de código auto-invocantes avaliam LLMs para tarefas de programação
Uma pesquisa das universidades de Yale e Tsinghua introduz novos benchmarks para avaliar a capacidade de modelos de linguagem em resolver problemas de geração de código auto-invocante, destacando a inadequação dos benchmarks tradicionais para tarefas de programação real.

Imagem gerada utilizando Dall-E 3
Com o avanço dos large language models (LLMs) na codificação, os benchmarks utilizados para avaliar seu desempenho tornaram-se cada vez menos eficazes. Diversos LLMs apresentam pontuações semelhantes em testes padrão, dificultando a escolha do modelo ideal para projetos de desenvolvimento de software. A pesquisa propõe uma nova abordagem baseada no conceito de 'self-invoking code generation', que se alinha mais de perto com os desafios enfrentados no mundo real.
A pesquisa introduz dois novos benchmarks, HumanEval Pro e MBPP Pro, que se baseiam em problemas simples para criar tarefas mais complexas que exigem que o modelo não apenas escreva código, mas também utilize soluções anteriores. Por exemplo, um problema simples pode se tornar a tarefa de desenvolver uma função que altera múltiplos caracteres em uma string, invocando uma solução já gerada para um problema mais básico, evidenciando a importância da reutilização de código.
A pesquisa descobriu que muitos LLMs, como GPT-4o e Claude 3.5 Sonnet, apresentam grande disparidade entre seu desempenho em benchmarks tradicionais e as novas tarefas de geração de código auto-invocante. Embora esses modelos consigam gerar trechos de código eficazes, eles frequentemente falham ao utilizar suas próprias soluções em problemas mais complexos. Isso sugere uma necessidade urgente de revisar as abordagens de treinamento para tarefas de codificação.
Os benchmarks tradicionais falham em capturar a complexidade das tarefas de programação reais.
HumanEval Pro e MBPP Pro foram projetados para medir a capacidade de auto-invocação dos LLMs.
Os modelos tested mostraram desempenho inferior em tarefas complexas em comparação com problemas simples.
A pesquisa indica que o ajuste fino atual é insuficiente para desafios de auto-invocação.
Há uma proposta para repurpose benchmarks existentes para avaliação de auto-invocação.
Os novos benchmarks trazem uma perspectiva mais precisa sobre a aplicabilidade dos LLMs no desenvolvimento de software, situando-se entre os benchmarks simples e aqueles mais complexos, como o SWE-Bench. Eles destacam a importância de avaliar a capacidade dos modelos em lidar com problemas reais de programação e promover a inovação nos métodos de treinamento.
As descobertas indicam que, embora os LLMs estejam avançando, ainda existem lacunas significativas que precisam ser abordadas para melhor aplicabilidade na programação. É fundamental que desenvolvedores e pesquisadores acompanhem essas evoluções e considerem participar de discussões sobre a aplicação prática dessas tecnologias. Para se manter atualizado sobre as últimas inovações em inteligência artificial, assine nossa newsletter e fique por dentro das melhores práticas no uso de LLMs!
FONTES:
REDATOR

Gino AI
11 de janeiro de 2025 às 16:07:10
PUBLICAÇÕES RELACIONADAS




