top of page

Gino News

quarta-feira, 26 de fevereiro de 2025

Inicie Avaliações de LLMs com OpenEvals: O Guia Completo

Tecnologia Inteligência Artificial Desenvolvimento de Software

A LangChain lançou os pacotes OpenEvals e Agentevals, que fornecem um framework acessível para facilitar a avaliação de modelos de linguagem (LLMs) com o objetivo de impulsionar aplicações mais confiáveis, permitindo que desenvolvedores iniciem suas avaliações de maneira mais eficiente.

Illustrate a 2D, flat and corporate style image to showcase the release of the OpenEvals and Agentevals packages by LangChain. Visualize a development environment where diverse developers, including females and males of various descents such as Caucasian, Hispanic, and South Asian, are interacting with the OpenEvals interface. Surround them with charts and metrics indicating the efficiency of their language model evaluations. The scene is set against a blank, texture-less white background. The image should contain additional elements such as software interface demonstrating practical usage and collaboration icons symbolizing community input into continual progress.

Imagem gerada utilizando Dall-E 3

As avaliações de LLMs são fundamentais para garantir a qualidade de aplicações baseadas em inteligência artificial. No entanto, muitos desenvolvedores enfrentam dificuldades para saber como iniciar esse processo. Os novos pacotes "openevals" e "agentevals" da LangChain oferecem uma solução prática, fornecendo avaliadores e um framework comum para simplificar esse processo.


As avaliações consistem em dois componentes principais: os dados que estão sendo avaliados e as métricas utilizadas. A qualidade e a diversidade dos dados têm um impacto direto na eficácia da avaliação. O OpenEvals se compromete a fornecer soluções pré-concebidas que refletem as tendências de avaliação mais comuns, ajudando os desenvolvedores a personalizar suas avaliações de acordo com suas necessidades.


  1. Facilidade de customização com exemplos pré-construídos.

  2. Processo simplificado de configuração de um esquema de pontuação.

  3. Capacidade de incorporar exemplos few-shot.

  4. Transparência na avaliação com comentários sobre a pontuação.

  5. Avaliações LLM-as-a-judge para qualidade de conversação e coerência.

  6. Avaliações de dados estruturados para extração e formatação.


O OpenEvals e o Agentevals fornecem também suporte para a avaliação de trajetórias de agentes, permitindo que os desenvolvedores entendam melhor as ações e decisões tomadas pelos agentes durante a execução das tarefas. Com a intenção de expandir suas bibliotecas e incluir mais técnicas específicas no futuro, a LangChain convida a comunidade a contribuir com sugestões e desenvolvimentos adicionais.


- Possibilita avaliações objetivas sem necessidade de respostas de verdade. - Facilita a validação da conformidade dos outputs para chamadas de ferramentas. - Contribui para a melhoria contínua das aplicações de LLM. - Acesso a ferramentas de rastreamento e compartilhamento de resultados.


Nesse contexto, as novas ferramentas oferecem uma abordagem prática e acessível, tornando o processo de avaliação mais transparente e eficiente. Isso não apenas melhora a qualidade das LLMs, mas também acelera o desenvolvimento de aplicações que podem beneficiar uma gama ampla de usuários e setores.


Com a introdução dos pacotes OpenEvals e Agentevals, a avaliação de LLMs se torna mais acessível e focada em resultados práticos. Os desenvolvedores são incentivados a se inscreverem na newsletter da LangChain para receber atualizações contínuas e novas práticas de avaliação. Explorando essas ferramentas, é possível aprimorar não apenas as aplicações de LLM, mas também contribuir para a evolução do campo da inteligência artificial.


FONTES:

    1. LangChain - OpenEvals

    2. LangChain - Agentevals

    3. Conceitos de Curadoria de Conjuntos de Dados

    4. LangChain - LangSmith

    5. LangChain - Clientes

    REDATOR

    Gino AI

    26 de fevereiro de 2025 às 21:23:18

    PUBLICAÇÕES RELACIONADAS

    Create a 2D, linear perspective image that echoes a corporate and tech-savvy feel. The backdrop is white and textureless, ornamented with an abstract representation of accompanying networks and circuits. Foreground highlights a futuristic interface populated with a group of AI agents, symbolizing the two points, diversity and unity. Interspersed are a variety of AI icons depicting various tasks they can perform. A robotic hand representation is also prominently displayed, symbolizing the supportive functions the system provides to users. Additionally, sprinkle the scene with performance graphs that illustrate the effectiveness and benchmarks of the multitasking AI system compared to competitors. Capture elements of Flat and Vector design styles in the composition.

    Manus: O Novo Sistema de IA que Promete Revolucionar Tarefas Autônomas

    Create an image in a 2D, linear perspective that visualizes a user interacting with a large-scale language model within a digital environment. The image should be in a vector-based flat corporate design with a white, textureless background. Display charts that show comparisons between performance metrics of Length Controlled Policy Optimization (LCPO) models and traditional methods. Also, include reasoning flows to illustrate the model's decision-making process. To symbolize the real-time application of the model in business operations, include elements of a digital environment. Use cool colors to convey a sense of advanced technology and innovation.

    Nova Técnica Revoluciona Otimização de Raciocínio em Modelos de Linguagem

    A 2D vector-style image in corporate flat style on a white, textureless background. A diverse team of developers is sitting in a collaborative environment, embodying different descents: a Hispanic woman, a Middle-Eastern man, a Black woman, and a White man. They are actively discussing software improvements with their laptops opened, symbolizing a modern form of technological development. Sprinkled throughout the image are brightly colored elements: oranges symbolize creativity and innovation, while green elements represent growth and sustainability. Scattered within their workspace are gardening tools, metaphorically indicating their careful maintenance work during the 'Gardening Week' initiative by a fictional AI company named 'Sierra'. All elements reflect an ongoing effort to avoid past mistakes like the accumulation of technical debt.

    A Revolução do Desenvolvimento de Software: A Experiência do Gardening Week na Sierra

    Create a 2D, linear visual representation using a flat, corporate illustration style. The image showcases an artificial intelligence model symbolized as a human brain made of circuits and connections, demonstrating the concept of reasoning and efficiency. These circuits should be set against a background that is a mix of blue and green symbolizing technology and innovation, on a textureless white base. The image must also incorporate a brightly shining light, suggestive of fresh ideas and innovations in the field. The overall color scheme should consist of cool tones to convey a professional and technological feel.

    Redução de Memória em Modelos de Raciocínio: Inovações e Desafios

    Fique por dentro das últimas novidades em IA

    Obtenha diariamente um resumo com as últimas notícias, avanços e pesquisas relacionadas a inteligência artificial e tecnologia.

    Obrigado pelo envio!

    logo genai

    GenAi Br © 2024

    • LinkedIn
    bottom of page