top of page

Gino News

quinta-feira, 13 de março de 2025

Avanços na Avaliação de Agentes: A Nova Era do GenAI

Tecnologia Inteligência Artificial Desenvolvimento de Software

Em 12 de março de 2025, a Databricks anunciou melhorias significativas na avaliação de agentes GenAI, visando facilitar a adoção e a produção dessa tecnologia por meio de avaliações automatizadas e colaboração especializada, abordando desafios como a falta de confiança em modelos e a dificuldade de iteração.

Create a 2D, vector-style, flat, corporate image with a texture-less white background. The image portrays significant improvements in the evaluation of GenAI agents announced by a data science company on March 12, 2025. The image highlights collaboration between developers and experts, represented by collaboration icons. There should be a performance data chart showing the efficacy of new tools. It should contain blue and green colors, implying trust and innovation. Moving arrows should also be present, suggesting continuity and evolution in the assessment process.

Imagem gerada utilizando Dall-E 3

A Databricks lançou uma atualização para sua ferramenta Mosaic AI Agent Evaluation, que agora oferece capacidades de Personalização Avançada, permitindo que equipes definam métricas personalizadas, utilizem um novo juiz de diretrizes (Guidelines AI Judge) e colaborem efetivamente com especialistas do setor. Estas melhorias visam acabar com a insegurança que muitos usuários sentem ao levar seus modelos do piloto à produção.


Com base em feedback de centenas de clientes, a empresa identificou duas principais dificuldades: a desconfiança na performance dos modelos em produção e a falta de um caminho claro para iterar e melhorar os sistemas. A nova abordagem oferece a possibilidade de personalizar avaliações automatizadas de maneira flexível, utilizando o Guidelines AI Judge e um conjunto de métricas customizáveis que atendem a necessidades específicas dos negócios.


As atualizações também incluem uma nova Review App que facilita a coleta de feedback de especialistas e a gestão de conjuntos de dados de avaliação. Esta ferramenta permite que os desenvolvedores colaborem efetivamente com profissionais de domínio, garantindo que as aplicações GenAI cumpram requisitos de qualidade definidos pelo setor. A utilização de conjuntos de dados de avaliação é destacada como uma estratégia essencial para validar a qualidade das aplicações antes do lançamento.


  1. Avaliações automatizadas personalizadas com o Guidelines AI Judge.

  2. Colaboração simplificada com especialistas através da Review App.

  3. Definição de métricas personalizadas para atender a padrões de negócios.

  4. Suporte para esquemas de entrada/saída arbitrários na avaliação.

  5. Conjuntos de dados de avaliação como equivalentes a testes unitários e de integração.


No geral, as inovações da Databricks visam não apenas aumentar a confiança no desempenho dos modelos, mas também criar um ciclo contínuo de feedback e melhoria. Com a intenção de expandir futuras capacidades de monitoramento de desempenho e qualidade, a empresa promete ajudar os desenvolvedores a se adaptarem às exigências do mercado com mais agilidade.


Em suma, as novas funcionalidades do Mosaic AI Agent Evaluation podem transformar a maneira como as equipes desenvolvem e avaliam suas aplicações de GenAI, aumentando a confiança e a colaboração entre desenvolvedores e especialistas. Para saber mais sobre essas inovações e como implementá-las em seus projetos, confira a documentação da Databricks e inscreva-se em nossa newsletter para receber mais conteúdos atualizados diariamente.


 
FONTES:

    1. Databricks Blog

    2. Mosaic AI Overview

    3. Guidelines AI Judge Documentation

    4. Review App Documentation

    5. MLflow Documentation

    REDATOR

    Gino AI

    13 de março de 2025 às 13:44:45

    PUBLICAÇÕES RELACIONADAS

    Create a 2D, linear perspective image that echoes a corporate and tech-savvy feel. The backdrop is white and textureless, ornamented with an abstract representation of accompanying networks and circuits. Foreground highlights a futuristic interface populated with a group of AI agents, symbolizing the two points, diversity and unity. Interspersed are a variety of AI icons depicting various tasks they can perform. A robotic hand representation is also prominently displayed, symbolizing the supportive functions the system provides to users. Additionally, sprinkle the scene with performance graphs that illustrate the effectiveness and benchmarks of the multitasking AI system compared to competitors. Capture elements of Flat and Vector design styles in the composition.

    Manus: O Novo Sistema de IA que Promete Revolucionar Tarefas Autônomas

    Create a 2D, vector-style artwork set in a clinical setting. On a white, textureless background, illustrate the scene with a flat and corporate aesthetic. A healthcare professional is preparing to administer an injection of lenacapavir to a diverse group of patients. The syringe is a visual symbol of the innovative treatment. The patients, representing a broad range of genders and descents such as Middle-Eastern female, Hispanic male, and South Asian transgender person, convey hope and are the beneficiaries of this advancement. The environment, symbolizing the seriousness of the treatment, is a doctor's office furnished with charts and graphs indicating the reduction in HIV infections due to the new treatment. Use a colour palette consisting of shades of blue and green to transmit trust and hope.

    Lenacapavir: Injeção Anual Promissora para Prevenção do HIV

    Imagine a 2D, vector-style, corporate-themed image representing the interoperability initiative among artificial intelligence agents. The scene features a white, textureless background to focus on the primary elements. Portray icons associated with unidentifiable companies to symbolize the participants in the initiative. Each of the icons should be distinct and connected with visual cables, representing the communication and cooperation amongst these AI agents. Lastly, implement a subtly digital environment suggesting the technological space where these entities function.

    AGNTCY: A Nova Iniciativa para Interoperabilidade entre Agentes de IA

    Creatio, a Boston-based CRM and workflow automation company, has announced its new AI-native CRM system. Presenting a 2D, linear vector illustration in a corporate, flat style with a non-textured white background, it highlights a futuristic CRM interface. An interactive chatbot, symbolizing the new interactive platform, is placed centrally. There are charts symbolizing increased efficiency and automation in the background. Hints of mordern and innovative blue and green colors are used in the design. Users of diverse descent and different genders are shown interacting with the system, emphasizing personalization and user experience.

    Creatio Revoluciona o CRM com Plataforma Nativa de IA

    Fique por dentro das últimas novidades em IA

    Obtenha diariamente um resumo com as últimas notícias, avanços e pesquisas relacionadas a inteligência artificial e tecnologia.

    Obrigado pelo envio!

    logo genai

    GenAi Br © 2024

    • LinkedIn
    bottom of page