Avanços na Avaliação de Agentes: A Nova Era do GenAI

Tecnologia Inteligência Artificial Desenvolvimento de Software

Em 12 de março de 2025, a Databricks anunciou melhorias significativas na avaliação de agentes GenAI, visando facilitar a adoção e a produção dessa tecnologia por meio de avaliações automatizadas e colaboração especializada, abordando desafios como a falta de confiança em modelos e a dificuldade de iteração.

Create a 2D, vector-style, flat, corporate image with a texture-less white background. The image portrays significant improvements in the evaluation of GenAI agents announced by a data science company on March 12, 2025. The image highlights collaboration between developers and experts, represented by collaboration icons. There should be a performance data chart showing the efficacy of new tools. It should contain blue and green colors, implying trust and innovation. Moving arrows should also be present, suggesting continuity and evolution in the assessment process.

Imagem gerada utilizando Dall-E 3

A Databricks lançou uma atualização para sua ferramenta Mosaic AI Agent Evaluation, que agora oferece capacidades de Personalização Avançada, permitindo que equipes definam métricas personalizadas, utilizem um novo juiz de diretrizes (Guidelines AI Judge) e colaborem efetivamente com especialistas do setor. Estas melhorias visam acabar com a insegurança que muitos usuários sentem ao levar seus modelos do piloto à produção.

Com base em feedback de centenas de clientes, a empresa identificou duas principais dificuldades: a desconfiança na performance dos modelos em produção e a falta de um caminho claro para iterar e melhorar os sistemas. A nova abordagem oferece a possibilidade de personalizar avaliações automatizadas de maneira flexível, utilizando o Guidelines AI Judge e um conjunto de métricas customizáveis que atendem a necessidades específicas dos negócios.

As atualizações também incluem uma nova Review App que facilita a coleta de feedback de especialistas e a gestão de conjuntos de dados de avaliação. Esta ferramenta permite que os desenvolvedores colaborem efetivamente com profissionais de domínio, garantindo que as aplicações GenAI cumpram requisitos de qualidade definidos pelo setor. A utilização de conjuntos de dados de avaliação é destacada como uma estratégia essencial para validar a qualidade das aplicações antes do lançamento.

Avaliações automatizadas personalizadas com o Guidelines AI Judge.
Colaboração simplificada com especialistas através da Review App.
Definição de métricas personalizadas para atender a padrões de negócios.
Suporte para esquemas de entrada/saída arbitrários na avaliação.
Conjuntos de dados de avaliação como equivalentes a testes unitários e de integração.

No geral, as inovações da Databricks visam não apenas aumentar a confiança no desempenho dos modelos, mas também criar um ciclo contínuo de feedback e melhoria. Com a intenção de expandir futuras capacidades de monitoramento de desempenho e qualidade, a empresa promete ajudar os desenvolvedores a se adaptarem às exigências do mercado com mais agilidade.

Em suma, as novas funcionalidades do Mosaic AI Agent Evaluation podem transformar a maneira como as equipes desenvolvem e avaliam suas aplicações de GenAI, aumentando a confiança e a colaboração entre desenvolvedores e especialistas. Para saber mais sobre essas inovações e como implementá-las em seus projetos, confira a documentação da Databricks e inscreva-se em nossa newsletter para receber mais conteúdos atualizados diariamente.