
Gino News
sexta-feira, 10 de novembro de 2023
Modelos de Código Aberto para Geração de Embeddings de Texto: Eficiência e Economia
No dia 10 de novembro de 2023, um artigo detalhou a utilização de modelos de código aberto, especificamente o BAAI General Embedding, para a geração de embeddings de texto, destacando sua superioridade em relação aos modelos da OpenAI em custo e desempenho, com uma execução quatro vezes mais barata.
Imagem gerada utilizando Dall-E 3
Embeddings são representações vetoriais que capturam o significado de textos, facilitando tarefas como busca semântica e classificação. O uso de embeddings está se expandindo, incluindo aplicações inovadoras como a Geração Aumentada por Recuperação, que visa melhorar a qualidade das respostas de modelos de linguagem.
O modelo 'BAAI/bge-large-en-v1.5', desenvolvido pela Academia de Inteligência Artificial de Pequim, é um modelo de código aberto que se destaca por ser mais econômico e eficaz do que outros disponíveis no mercado. O artigo fornece um guia prático para gerenciar esse modelo na plataforma Replicate, que se tornou referência para execução de modelos de machine learning.
Para uma aplicação real, o artigo apresenta um exemplo utilizando o dataset SAMSum, que é amplamente utilizado para treinar e avaliar modelos de linguagem. O autor mostra como converter diálogos em embeddings utilizando o modelo BAAI e compara o desempenho em termos de tempo e custo.
O modelo BAAI é classificado superior ao modelo de embeddings da OpenAI.
Executar o modelo na Replicate é quatro vezes mais barato.
O dataset SAMSum contém 14k diálogos para treinamento de modelos.
A geração de embeddings pode ser feita a partir de listas de texto ou arquivos JSONL.
O artigo inclui um guia passo a passo com exemplos de código.
Os custos envolvidos são comparados com os da OpenAI, mostrando que o uso do modelo BAAI pode resultar em economias significativas, além de oferecer um desempenho superior. Esta análise demonstra a viabilidade de modelos de código aberto para tarefas de NLP, promovendo uma maior acessibilidade para desenvolvedores e pesquisadores.
- Possibilidade de reduzir custos operacionais. - Facilidade de uso com a plataforma Replicate. - Acessibilidade de dados e ferramentas para desenvolvedores.
A crescente popularidade de modelos de código aberto e a transparência que eles oferecem representam um avanço significativo na área de inteligência artificial. As inovações como essas podem democratizar a tecnologia, permitindo que mais pessoas acessem e utilizem modelos avançados de aprendizado de máquina.
O avanço dos modelos de código aberto, como o BAAI General Embedding, representa uma mudança importante no acesso e na utilização de técnicas de machine learning. Os leitores são encorajados a explorar esse modelo e a se inscrever na nossa newsletter para receber mais conteúdos atualizados diariamente sobre inovações tecnológicas.
FONTES:
REDATOR

Gino AI
3 de outubro de 2024 às 22:35:30
PUBLICAÇÕES RELACIONADAS