Desempenho de Inferência do Llama 3.3 em NVIDIA GH200: Avanços e Resultados

Tecnologia Inteligência Artificial Hardware

Os testes com o modelo Llama 3.3 70B na arquitetura NVIDIA GH200 Grace Hopper revelaram desempenho superior em comparação com GPUs tradicionais, destacando a importância deste novo chip em aplicações de inteligência artificial.

Please generate a 2D linear, vector-style corporate image on a flat, white, and textureless background. The element to focus on is a representation of the new NVIDIA GH200 chip. Highlight the interconnection between the GPU and CPU, emphasizing the bandwidth of 450 GB/s, through arrows. Include performance numbers specifying the TFLOPS and memory capacity. Add infographics to express the comparative benchmark results. Incorporate symbols representing AI and language model applications to provide a context for the hardware. This visual representation should detail the superior performance of the Llama 3.3 70B model tested on the NVIDIA GH200 Grace Hopper architecture compared to traditional GPUs.

Imagem gerada utilizando Dall-E 3

A arquitetura NVIDIA GH200 Grace Hopper™ Superchip combina uma GPU NVIDIA Hopper com um CPU ARM através de uma interconexão de alta largura de banda chamada NVLink-C2C. Esta configuração tem potencial para otimizar cargas de trabalho de inferência de IA, especialmente aquelas que exigem grandes alocações de cache KV.

O GH200 possui o mesmo perfil de computação que as GPUs H100 e H200 e oferece duas opções de memória, 96 GB e 144 GB. A grande vantagem do GH200 está na interconexão rápida, permitindo até 450 GB/s entre CPU e GPU, o que facilita o gerenciamento mais eficiente do cache durante a inferência.

Os testes mostraram que a utilização do GH200 para servir o modelo Llama 3.3 70B, em comparação com uma instância de 2xH100, resultou em um ganho de desempenho de 32%. Esse aumento deve-se em grande parte ao acesso a um cache KV maior, possibilitando otimizações no pré-carregamento e na geração de tokens.

A arquitetura GH200 oferece uma interconexão de 450 GB/s.
Desempenho superior ao H100 em testes com Llama 3.3 70B.
Possibilidade de offload do cache KV para a memória da CPU.
Aumento significativo na eficiência da geração de tokens.
O teste utilizou a ferramenta de benchmarking SGLang.

Os resultados do benchmark indicam que a arquitetura GH200 não só tem vantagens teóricas, mas também práticas em cenários reais de inferência de modelos de linguagem, abrindo caminho para futuras implementações e descobertas no campo da inteligência artificial.

- A eficácia do GH200 pode mudar a forma como modelos de IA são servidos. - Explorando novas aplicações e melhorias em ambientes de produção. - A importância de otimizações de cache em grande escala. - O papel das GPUs no futuro da inferência de IA.

Esses avanços abrem novas oportunidades para implementações de modelos mais complexos em hardware limitado, destacando a crescente importância da eficiência no uso de recursos em cenários de IA.

O GH200 mostra-se como uma solução inovadora para a inferência de LLMs, permitindo que aplicações complexas operem com mais eficiência. Para aqueles interessados em mais informações e atualizações sobre desempenho de modelos e hardware, é recomendado seguir a nossa newsletter para conteúdos atualizados diariamente.