top of page

Gino News

sábado, 11 de janeiro de 2025

Novos benchmarks de código auto-invocantes avaliam LLMs para tarefas de programação

Inteligência Artificial Tecnologia Desenvolvimento de Software

Uma pesquisa das universidades de Yale e Tsinghua introduz novos benchmarks para avaliar a capacidade de modelos de linguagem em resolver problemas de geração de código auto-invocante, destacando a inadequação dos benchmarks tradicionais para tarefas de programação real.

Imagine a vivid, 2D, corporate-style, flat vector graphical representation on a plain white background. The image conceptually depicts the self-invoking code generation process. It shows abstract shapes symbolizing Large Language Models (LLMs) engaging in activities relating to code generation, represented by intricate circuit-like patterns. These circuits signify the complexity of programming and the interaction between the models and the code. Add vibrant colors to the elements to give a modern, tech-savvy feel to the scene.

Imagem gerada utilizando Dall-E 3

Com o avanço dos large language models (LLMs) na codificação, os benchmarks utilizados para avaliar seu desempenho tornaram-se cada vez menos eficazes. Diversos LLMs apresentam pontuações semelhantes em testes padrão, dificultando a escolha do modelo ideal para projetos de desenvolvimento de software. A pesquisa propõe uma nova abordagem baseada no conceito de 'self-invoking code generation', que se alinha mais de perto com os desafios enfrentados no mundo real.


A pesquisa introduz dois novos benchmarks, HumanEval Pro e MBPP Pro, que se baseiam em problemas simples para criar tarefas mais complexas que exigem que o modelo não apenas escreva código, mas também utilize soluções anteriores. Por exemplo, um problema simples pode se tornar a tarefa de desenvolver uma função que altera múltiplos caracteres em uma string, invocando uma solução já gerada para um problema mais básico, evidenciando a importância da reutilização de código.


A pesquisa descobriu que muitos LLMs, como GPT-4o e Claude 3.5 Sonnet, apresentam grande disparidade entre seu desempenho em benchmarks tradicionais e as novas tarefas de geração de código auto-invocante. Embora esses modelos consigam gerar trechos de código eficazes, eles frequentemente falham ao utilizar suas próprias soluções em problemas mais complexos. Isso sugere uma necessidade urgente de revisar as abordagens de treinamento para tarefas de codificação.


  1. Os benchmarks tradicionais falham em capturar a complexidade das tarefas de programação reais.

  2. HumanEval Pro e MBPP Pro foram projetados para medir a capacidade de auto-invocação dos LLMs.

  3. Os modelos tested mostraram desempenho inferior em tarefas complexas em comparação com problemas simples.

  4. A pesquisa indica que o ajuste fino atual é insuficiente para desafios de auto-invocação.

  5. Há uma proposta para repurpose benchmarks existentes para avaliação de auto-invocação.


Os novos benchmarks trazem uma perspectiva mais precisa sobre a aplicabilidade dos LLMs no desenvolvimento de software, situando-se entre os benchmarks simples e aqueles mais complexos, como o SWE-Bench. Eles destacam a importância de avaliar a capacidade dos modelos em lidar com problemas reais de programação e promover a inovação nos métodos de treinamento.


As descobertas indicam que, embora os LLMs estejam avançando, ainda existem lacunas significativas que precisam ser abordadas para melhor aplicabilidade na programação. É fundamental que desenvolvedores e pesquisadores acompanhem essas evoluções e considerem participar de discussões sobre a aplicação prática dessas tecnologias. Para se manter atualizado sobre as últimas inovações em inteligência artificial, assine nossa newsletter e fique por dentro das melhores práticas no uso de LLMs!


FONTES:

    1. VentureBeat

    2. HumanEval

    3. MBPP

    4. arXiv

    5. SWE-Bench

    REDATOR

    Gino AI

    11 de janeiro de 2025 às 16:07:10

    PUBLICAÇÕES RELACIONADAS

    Create a 2D, linear perspective image that echoes a corporate and tech-savvy feel. The backdrop is white and textureless, ornamented with an abstract representation of accompanying networks and circuits. Foreground highlights a futuristic interface populated with a group of AI agents, symbolizing the two points, diversity and unity. Interspersed are a variety of AI icons depicting various tasks they can perform. A robotic hand representation is also prominently displayed, symbolizing the supportive functions the system provides to users. Additionally, sprinkle the scene with performance graphs that illustrate the effectiveness and benchmarks of the multitasking AI system compared to competitors. Capture elements of Flat and Vector design styles in the composition.

    Manus: O Novo Sistema de IA que Promete Revolucionar Tarefas Autônomas

    Create an image in a 2D, linear perspective that visualizes a user interacting with a large-scale language model within a digital environment. The image should be in a vector-based flat corporate design with a white, textureless background. Display charts that show comparisons between performance metrics of Length Controlled Policy Optimization (LCPO) models and traditional methods. Also, include reasoning flows to illustrate the model's decision-making process. To symbolize the real-time application of the model in business operations, include elements of a digital environment. Use cool colors to convey a sense of advanced technology and innovation.

    Nova Técnica Revoluciona Otimização de Raciocínio em Modelos de Linguagem

    Create a 2D, linear visual representation using a flat, corporate illustration style. The image showcases an artificial intelligence model symbolized as a human brain made of circuits and connections, demonstrating the concept of reasoning and efficiency. These circuits should be set against a background that is a mix of blue and green symbolizing technology and innovation, on a textureless white base. The image must also incorporate a brightly shining light, suggestive of fresh ideas and innovations in the field. The overall color scheme should consist of cool tones to convey a professional and technological feel.

    Redução de Memória em Modelos de Raciocínio: Inovações e Desafios

    Create a 2D, flat corporate-style vector image on a white, texture-less background. The image should feature elements symbolising cybersecurity, including padlocks to symbolise security, and alert icons to represent risks. There should also be a technological background that reflects the AI environment, highlighting the importance of security in artificial intelligence.

    Segurança em LLM: Riscos e Melhores Práticas para Proteger a Inteligência Artificial

    Fique por dentro das últimas novidades em IA

    Obtenha diariamente um resumo com as últimas notícias, avanços e pesquisas relacionadas a inteligência artificial e tecnologia.

    Obrigado pelo envio!

    logo genai

    GenAi Br © 2024

    • LinkedIn
    bottom of page