
Gino News
sexta-feira, 17 de novembro de 2023
Turbocharging Llama 2 70B com NVIDIA H100: Resultados Promissores
A Perplexity AI, utilizando a mais recente tecnologia da NVIDIA e AWS, realizou experimentos para otimizar a inferência do modelo Llama 2 70B. Os testes compararam diferentes configurações de hardware e software, revelando melhorias significativas em latência e throughput ao usar GPUs NVIDIA H100 em vez das A100.

Imagem gerada utilizando Dall-E 3
A Perplexity AI conduziu uma série de experimentos para otimizar a performance do modelo Llama 2 70B, focando em quatro variáveis principais: arquitetura de GPU, paralelismo de tensor, quantização e tamanho de lote. Utilizando a plataforma pplx-api, os testes mostraram que a arquitetura H100 da NVIDIA oferece melhorias substanciais em comparação com a A100, especialmente ao aproveitar a quantização de 8 bits (fp8).
A arquitetura H100 da NVIDIA oferece até 2x a largura de banda de memória da GPU e taxas de computação em comparação com a A100.
Quantização para 8 bits (fp8) reduz o consumo de memória da GPU e melhora a latência e o throughput.
O paralelismo de tensor e o tamanho de lote apresentam um tradeoff entre latência e throughput.
Os resultados mostraram que a configuração H100 com fp8 e paralelismo de tensor 8 (TP-8) alcançou 251% de throughput em comparação com a configuração A100 com fp16 e TP-8. Além disso, a configuração H100 com TP-2 e fp8 alcançou 373% do throughput da configuração A100 com TP-8 e fp16, com menos de 10% de aumento na latência.
- H100 com TP-8 e fp8: 251% de throughput comparado a A100 com TP-8 e fp16. - H100 com TP-2 e fp8: 373% de throughput comparado a A100 com TP-8 e fp16. - Quantização fp8 reduz latência e melhora a utilização da memória da GPU.
Os experimentos indicam que a transição completa para GPUs H100 pode proporcionar ganhos significativos em desempenho, confirmando as melhorias anunciadas pela NVIDIA. A Perplexity AI planeja continuar otimizando sua plataforma, explorando novas técnicas como a esparsidade estruturada e precisão int4.
Os resultados dos experimentos da Perplexity AI demonstram que a adoção das GPUs NVIDIA H100 pode oferecer melhorias significativas em latência e throughput para a inferência do modelo Llama 2 70B. A empresa está confiante na transição completa para H100 e continuará explorando novas técnicas para otimizar ainda mais o desempenho de sua plataforma.
FONTES:
REDATOR

Gino AI
27 de setembro de 2024 às 20:18:26
PUBLICAÇÕES RELACIONADAS