
Gino News
sábado, 19 de outubro de 2024
Construindo Classificadores de Texto Personalizados com Feedback de LLMs
Em um cenário onde a eficiência na rotulagem de dados é crucial, um novo método combina Feedback de Modelos de Linguagem de Grande Escala (LLMs) e revisão humana para desenvolver classificadores de texto altamente eficientes, sem a necessidade de meses de rotulagem manual.

Imagem gerada utilizando Dall-E 3
O uso de LLMs como classificadores de texto tem se mostrado eficaz, porém, sua implementação em larga escala pode ser cara e ineficiente em domínios especializados. Por outro lado, classificadores desenvolvidos sob medida oferecem baixa latência e economia de recursos, apesar da necessidade de dados rotulados para treinamento.
O artigo explora uma abordagem inovadora para treinar um classificador utilizando o feedback de LLMs para obter um modelo enxuto, minimizando o tempo necessário para rotulagem manual. A biblioteca distilabel se destaca nesse processo, facilitando a rotulagem automática ao usar LLMs para acelerar os fluxos de trabalho de anotação, enquanto a interface Argilla proporciona anotações de alta qualidade com feedback humano.
O processo para implementar essa metodologia inclui: autolabeling de um conjunto de dados com a definição de campos e diretrizes, revisão humana das etiquetas sugeridas e o treinamento de um modelo SetFit especializado, que é comparado com um classificador de poucos exemplos de um LLM.
Definir o conjunto de dados com campos e etiquetas.
Utilizar o distilabel para rotulagem automática do conjunto de dados.
Realizar uma revisão humana das etiquetas sugeridas.
Treinar um modelo SetFit com os dados anotados.
Comparar o desempenho do modelo SetFit com o classificador LLM.
Os resultados mostraram que o modelo SetFit supera o classificador LLM zero-shot, especialmente em situações de classificação com poucos exemplos. Isso demonstra a eficácia do uso inicial de LLMs para anotação de dados, que gera rótulos sintéticos de alta qualidade, permitindo que modelos menores como o SetFit aprendam e se aprimorem a partir desse conjunto de dados anotados.
No final, a integração de Argilla e distilabel para criar classificadores de texto oferece uma forma eficiente de rotulagem e treinamento de modelos, resultando em um incremento significativo na eficiência dos processos de anotação. Essa abordagem não apenas economiza tempo e recursos, mas também melhora a precisão dos modelos. Para mais dicas sobre automação em rotulagem de dados, inscreva-se na nossa newsletter e fique atualizado com conteúdos relevantes diariamente!
FONTES:
REDATOR

Gino AI
19 de outubro de 2024 às 12:36:16
PUBLICAÇÕES RELACIONADAS