Cerebras Inference Revoluciona a Velocidade de Inferência em IA

Tecnologia Inteligência Artificial Inovação

A Cerebras Systems apresentou hoje seu novo sistema de inferência de inteligência artificial, conhecido como Cerebras Inference, que promete velocidades impressionantes de até 1.800 tokens por segundo para o modelo Llama3.1 8B, 20 vezes mais rápido que soluções baseadas em GPUs da NVIDIA.

Imagem gerada utilizando Dall-E 3

O anúncio de Cerebras revela uma nova era em inferência de IA, com o Cerebras Inference sendo a solução mais rápida do mercado. Com 1.800 tokens por segundo para o modelo Llama3.1 8B e 450 tokens por segundo para Llama3.1 70B, o desempenho superou em muito o oferecido por servidores de nuvem de alta escala baseados em GPUs, oferecendo também preços competitivos. O sistema é acessível aos desenvolvedores através de uma API.

A tecnologia é sustentada pelo terceiro gerador do Wafer Scale Engine, que permite que o Cerebras Inference funcione a 20 vezes a velocidade das soluções de GPU. Esse avanço ocorre graças ao armazenamento de todo o modelo na memória on-chip, eliminando as limitações das GPUs que precisam acessar a memória externa. Essa abordagem garante respostas instantâneas e alta precisão, utilizando pesos de modelo nativos de 16 bits.

Cerebras também destaca que a alta velocidade de inferência não é apenas uma questão de rapidez, mas de possibilitar novos fluxos de trabalho de IA complexos. Estratégias como ‘scaffolding’, que exigem considerações mais profundas antes de gerar respostas, podem agora ser realizadas em tempo real, utilizando os recursos do Cerebras Inference, permitindo um desempenho significativamente melhor em tarefas exigentes.

Cerebras Inference atinge velocidades de até 1.800 tokens por segundo.
A solução é 20 vezes mais rápida que alternativas baseadas em GPU.
Preço competitivo de 10 centavos por milhão de tokens.
Armazenamento de todo o modelo na memória on-chip.
Precisão garantida com pesos de 16 bits.

Com esse avanço, a Cerebras se posiciona como uma referência na indústria de IA, abrindo novas possibilidades para desenvolvedores e aplicações na área. O sistema já está disponível com token gratuito inicial e promete integrar modelos ainda maiores nos próximos meses.

Cerebras Inference não apenas redefine a velocidade na inferência de IA, mas também amplia as aplicações práticas dessa tecnologia. Para aqueles interessados em explorar mais sobre essa revolução em IA, recomenda-se experimentar a API do Cerebras e acompanhar as atualizações em sua newsletter. O leitor encontrará regularmente conteúdos atualizados e relevantes para se manter à frente no mundo da inteligência artificial.