Together Inference Engine 2.0: Avanços e Flexibilidade em AI Generativa

Tecnologia Inteligência Artificial Inovação

A Together AI apresentou, em 18 de julho de 2024, a versão 2.0 do Together Inference Engine, destacando um desempenho quatro vezes mais rápido que soluções open source e mais eficiente do que opções comerciais como Amazon Bedrock e Azure AI. Com novos endpoints Turbo e Lite, a empresa busca atender a demandas variadas de custo e qualidade para empresas que desenvolvem aplicações de inteligência artificial generativa.

Imagem gerada utilizando Dall-E 3

O Together Inference Engine 2.0 chega com promessas de desempenho superior e flexibilidade no uso dos modelos Meta Llama 3. A nova tecnologia proporciona um throughput de decodificação quatro vezes mais rápido que o vLLM open-source, superando soluções comerciais por até 2,5 vezes. Este avanço é atribuído a inovações como FlashAttention-3 e técnicas de quantização que preservam a qualidade.

Os novos endpoints, Turbo e Lite, foram projetados para oferecer um desempenho flexível que se alinha às necessidades empresariais, permitindo que desenvolvedores escolham entre qualidade superior e otimização de custos. Enquanto o Turbo garante qualidade semelhante a modelos de precisão total, o Lite se destaca por ser altamente escalável e econômico, com preços significativamente menores que opções concorrentes.

Endpoints Turbo oferecem desempenho FP8 rápido com qualidade superior.
Endpoints Lite proporcionam soluções econômicas com boa qualidade.
Jornalistas e desenvolvedores como DuckDuckGo e Zomato já utilizam a nova tecnologia.
Números de desempenho demonstram até 4,5 vezes mais eficiência em comparação ao vLLM.
A inclusão de técnicas como codificação especulativa promete avanços contínuos.

A versão 2.0 também inclui uma série de inovações técnicas que visam não somente melhorar a performance, mas também a preservação da qualidade durante a utilização dos modelos. O foco em quantização que preserva a qualidade e a adoção de novos algoritmos de decodificação destacam-se como pontos chave na evolução do Together Inference Engine.

- Otimização de desempenho para empresas. - Maior flexibilidade na escolha de modelos. - Implementação de técnicas de ponta. - Acessibilidade econômica para diversos setores.

A nova infraestrutura do Together Inference Engine promete revolucionar o desenvolvimento de aplicações de inteligência artificial, proporcionando aos usuários um equilíbrio entre desempenho, custo e qualidade, essencial para o crescimento e a inovação no campo da AI generativa.

Com a introdução dos endpoints Turbo e Lite, a Together AI se posiciona como líder em inovação e desenvolvimento de IA, oferecendo soluções de alto desempenho e acessibilidade. Os interessados em mais informações sobre inteligência artificial podem se inscrever na nossa newsletter para atualizar-se sobre as últimas tendências e inovações diárias.