Inovações em Performance de Modelos: O Que Esperar de 2025

Tecnologia Inteligência Artificial Inovação

Em 2024, a equipe de Model Performance da Baseten fez avanços significativos em otimização de inferência com o uso do TensorRT-LLM e GPUs H100, visando aumentar a escalabilidade, qualidade e eficiência dos modelos, enquanto se prepara para inovações em 2025.

Create an illustrative vector-styled image set two years from now, in 2024. The setting is a high-tech workplace where a team of engineers are diligently testing AI models on computer screens, preparing for innovations. The engineers are a mix of racial backgrounds including Caucasian, Asian, and African descent, with a balance of both male and female engineers. In the background, performance graphics symbolize advancements in model optimization, improvements in scalability and latency specifically indicated. Also depicted are GPU servers, alluding to the powerful infrastructure needed for efficient model execution. The image carries a corporate flat look, all set on a clean, untextured white background in a 2D, linear perspective.

Imagem gerada utilizando Dall-E 3

A Baseten, através de sua equipe de Model Performance, focou em adaptar pesquisas de otimização de inferência para aplicações do mundo real em 2024. A equipe priorizou diversas frentes, como latência, escalabilidade, qualidade, custo e facilidade de uso. O ano foi marcado por avanços importantes, incluindo a adoção do TensorRT-LLM, um framework de inferência rápido de NVIDIA, que provou ser superior em benchmarks em comparação com outras opções.

Além disso, a integração do TensorRT-LLM com a arquitetura de GPU Hopper, especialmente utilizando GPUs H100, melhorou significativamente a performance, oferecendo até 40% de melhorias em métricas cruciais com a quantização FP8. Este trabalho colaborativo resultou em várias inovações, incluindo um sistema interno de distribuição de pesos para reduzir o tempo de inicialização de modelos complexos.

No tocante à otimização de desempenho, a Baseten implementou técnicas como Speculative Decoding e desenvolveu servidores de inferência que suportam características avançadas, permitindo uma integração mais robusta com os padrões da indústria. A empresa também se esforçou para fornecer ferramentas de fácil utilização para desenvolvedores, como o Engine Builder, que automatiza a criação de motores de inferência.

Adição do TensorRT-LLM como framework principal.
Melhorias significativas com GPUs H100, aproveitando a quantidade de memória e arquitetura.
Implementação de Speculative Decoding como técnica de otimização.
Desenvolvimento de servidores de inferência avançados.
Lançamento de ferramentas automatizadas para facilitar o trabalho dos desenvolvedores.

Os resultados obtidos em 2024 não apenas melhoraram a performance, mas também abriram novas possibilidades, como a otimização em chamadas telefônicas com IA e pipelines de ASR que lideram o mercado. A Baseten prevê continuar essa trajetória de inovação em 2025, explorando novas arquiteturas de GPU e técnicas de quantização.

- Expansão do uso de FP4 quantization. - Exploração da arquitetura de GPU Blackwell. - Otimização de modelos de embeddings. - Introdução de disaggregated serving.

Com um olhar voltado para o futuro, a Baseten está posicionada para continuar liderando no campo da performance de modelos, trazendo soluções inovadoras e escaláveis para o mercado. Os interessados em fazer parte desta jornada podem visitar a página de carreiras da empresa.

Em suma, a Baseten se destaca por seus esforços em otimização de performance de modelos, com várias inovações previstas para 2025. Para ficar por dentro dessas atualizações e demais conteúdos relevantes, assine a nossa newsletter e acompanhe novidades diariamente.