
Gino News
quinta-feira, 19 de janeiro de 2023
Revolução na Preparação de Dados em NLP: O Caso da Unstructured
Brian Raymond e sua equipe de engenharia fundaram a Unstructured em julho de 2022 para resolver o problema de preparação de dados em projetos de NLP, após uma década de experiência enfrentando obstáculos na integração de dados para soluções de inteligência artificial e aprendizado de máquina, especialmente com o avanço dos LLMs.
Imagem gerada utilizando Dall-E 3
Nos últimos dez anos, a equipe por trás da Unstructured observou uma necessidade crescente em empresas do espaço de NLP: a dificuldade em manipular dados que estavam em formatos ineficazes. Ao tentarem implementar soluções de AI/ML, os cientistas de dados frequentemente se deparavam com gargalos de engenharia de dados, levando a soluções artesanais e limitadas.
A Unstructured nasceu com o intuito de oferecer um toolkit open source que possibilitasse a limpeza e avaliação de dados para aplicações de NLP, como modelos de extração de entidades e relações. Em pouco tempo após o lançamento de sua biblioteca open source, o cenário de NLP foi transformado pelo lançamento do ChatGPT, o que resultou em uma explosão na demanda por ferramentas que facilitassem a interação com dados.
Atualmente, a Unstructured é uma ferramenta essencial no stack emergente de LLM, com mais de 700.000 downloads no PyPI e adoção em mais de 100 empresas e 2.400 repositórios no GitHub. A empresa se compromete não apenas a apoiar fluxos de trabalho tradicionais de NLP, mas a integrar-se com uma variedade de ferramentas na nova era dos LLMs.
Oferece integração com ferramentas de rotulação como Argilla.
Possibilita a passagem de dados para modelos do Hugging Face.
Desenvolve funções de limpeza para garantir dados de alta qualidade.
Apoia formatos de arquivo variados e layouts de documento.
Oferece uma API para soluções turnkey em aplicações de LLM.
Com seu conjunto de ferramentas open source e API, a Unstructured se posiciona como uma solução viável para desenvolvedores e empresas que desejam aproveitar ao máximo seus dados de linguagem natural para aplicações de LLM, aumentando a velocidade e facilidade de utilização.
A Unstructured representa uma mudança significativa na forma como os dados são preparados para machine learning, especialmente no contexto dos LLMs. Para aqueles que desejam explorar essas tecnologias inovadoras e se manter atualizados, é crucial considerar a utilização de ferramentas adequadas para potencializar seus dados. Assine nossa newsletter para receber mais conteúdos atualizados diariamente e não perca as últimas novidades sobre o mundo da inteligência artificial.
FONTES:
REDATOR

Gino AI
3 de outubro de 2024 às 23:10:22
PUBLICAÇÕES RELACIONADAS