Turbocharging Llama 2 70B com NVIDIA H100: Resultados Promissores

Tecnologia Inteligência Artificial Hardware

A Perplexity AI, utilizando a mais recente tecnologia da NVIDIA e AWS, realizou experimentos para otimizar a inferência do modelo Llama 2 70B. Os testes compararam diferentes configurações de hardware e software, revelando melhorias significativas em latência e throughput ao usar GPUs NVIDIA H100 em vez das A100.

A comparative illustration of the NVIDIA H100 and A100 GPUs, featuring the key improvements in latency and throughput. The illustration is vector-based, with a flat, corporate visual style. It's set against a texture-less white background, and uses a 2D, linear perspective. Additional elements to be present are: a bar chart comparing the latency between the H100 and A100; a line chart comparing the throughput between the H100 and A100; visual representations of the H100 and A100 GPUs as icons; a color palette that incorporates shades of blue and green to symbolize technology and innovation; text that summarizes the main performance statistics.

Imagem gerada utilizando Dall-E 3

A Perplexity AI conduziu uma série de experimentos para otimizar a performance do modelo Llama 2 70B, focando em quatro variáveis principais: arquitetura de GPU, paralelismo de tensor, quantização e tamanho de lote. Utilizando a plataforma pplx-api, os testes mostraram que a arquitetura H100 da NVIDIA oferece melhorias substanciais em comparação com a A100, especialmente ao aproveitar a quantização de 8 bits (fp8).

A arquitetura H100 da NVIDIA oferece até 2x a largura de banda de memória da GPU e taxas de computação em comparação com a A100.
Quantização para 8 bits (fp8) reduz o consumo de memória da GPU e melhora a latência e o throughput.
O paralelismo de tensor e o tamanho de lote apresentam um tradeoff entre latência e throughput.

Os resultados mostraram que a configuração H100 com fp8 e paralelismo de tensor 8 (TP-8) alcançou 251% de throughput em comparação com a configuração A100 com fp16 e TP-8. Além disso, a configuração H100 com TP-2 e fp8 alcançou 373% do throughput da configuração A100 com TP-8 e fp16, com menos de 10% de aumento na latência.

- H100 com TP-8 e fp8: 251% de throughput comparado a A100 com TP-8 e fp16. - H100 com TP-2 e fp8: 373% de throughput comparado a A100 com TP-8 e fp16. - Quantização fp8 reduz latência e melhora a utilização da memória da GPU.

Os experimentos indicam que a transição completa para GPUs H100 pode proporcionar ganhos significativos em desempenho, confirmando as melhorias anunciadas pela NVIDIA. A Perplexity AI planeja continuar otimizando sua plataforma, explorando novas técnicas como a esparsidade estruturada e precisão int4.

Os resultados dos experimentos da Perplexity AI demonstram que a adoção das GPUs NVIDIA H100 pode oferecer melhorias significativas em latência e throughput para a inferência do modelo Llama 2 70B. A empresa está confiante na transição completa para H100 e continuará explorando novas técnicas para otimizar ainda mais o desempenho de sua plataforma.