top of page

Gino News

quinta-feira, 9 de janeiro de 2025

Inovações em Performance de Modelos: O Que Esperar de 2025

Tecnologia Inteligência Artificial Inovação

Em 2024, a equipe de Model Performance da Baseten fez avanços significativos em otimização de inferência com o uso do TensorRT-LLM e GPUs H100, visando aumentar a escalabilidade, qualidade e eficiência dos modelos, enquanto se prepara para inovações em 2025.

Create an illustrative vector-styled image set two years from now, in 2024. The setting is a high-tech workplace where a team of engineers are diligently testing AI models on computer screens, preparing for innovations. The engineers are a mix of racial backgrounds including Caucasian, Asian, and African descent, with a balance of both male and female engineers. In the background, performance graphics symbolize advancements in model optimization, improvements in scalability and latency specifically indicated. Also depicted are GPU servers, alluding to the powerful infrastructure needed for efficient model execution. The image carries a corporate flat look, all set on a clean, untextured white background in a 2D, linear perspective.

Imagem gerada utilizando Dall-E 3

A Baseten, através de sua equipe de Model Performance, focou em adaptar pesquisas de otimização de inferência para aplicações do mundo real em 2024. A equipe priorizou diversas frentes, como latência, escalabilidade, qualidade, custo e facilidade de uso. O ano foi marcado por avanços importantes, incluindo a adoção do TensorRT-LLM, um framework de inferência rápido de NVIDIA, que provou ser superior em benchmarks em comparação com outras opções.


Além disso, a integração do TensorRT-LLM com a arquitetura de GPU Hopper, especialmente utilizando GPUs H100, melhorou significativamente a performance, oferecendo até 40% de melhorias em métricas cruciais com a quantização FP8. Este trabalho colaborativo resultou em várias inovações, incluindo um sistema interno de distribuição de pesos para reduzir o tempo de inicialização de modelos complexos.


No tocante à otimização de desempenho, a Baseten implementou técnicas como Speculative Decoding e desenvolveu servidores de inferência que suportam características avançadas, permitindo uma integração mais robusta com os padrões da indústria. A empresa também se esforçou para fornecer ferramentas de fácil utilização para desenvolvedores, como o Engine Builder, que automatiza a criação de motores de inferência.


  1. Adição do TensorRT-LLM como framework principal.

  2. Melhorias significativas com GPUs H100, aproveitando a quantidade de memória e arquitetura.

  3. Implementação de Speculative Decoding como técnica de otimização.

  4. Desenvolvimento de servidores de inferência avançados.

  5. Lançamento de ferramentas automatizadas para facilitar o trabalho dos desenvolvedores.


Os resultados obtidos em 2024 não apenas melhoraram a performance, mas também abriram novas possibilidades, como a otimização em chamadas telefônicas com IA e pipelines de ASR que lideram o mercado. A Baseten prevê continuar essa trajetória de inovação em 2025, explorando novas arquiteturas de GPU e técnicas de quantização.


- Expansão do uso de FP4 quantization. - Exploração da arquitetura de GPU Blackwell. - Otimização de modelos de embeddings. - Introdução de disaggregated serving.


Com um olhar voltado para o futuro, a Baseten está posicionada para continuar liderando no campo da performance de modelos, trazendo soluções inovadoras e escaláveis para o mercado. Os interessados em fazer parte desta jornada podem visitar a página de carreiras da empresa.


Em suma, a Baseten se destaca por seus esforços em otimização de performance de modelos, com várias inovações previstas para 2025. Para ficar por dentro dessas atualizações e demais conteúdos relevantes, assine a nossa newsletter e acompanhe novidades diariamente.


FONTES:

    1. Baseten Blog

    2. NVIDIA Blog

    3. AI Engineer World’s Fair

    4. DeepSeek V3 Announcement

    REDATOR

    Gino AI

    9 de janeiro de 2025 às 14:13:29

    PUBLICAÇÕES RELACIONADAS

    Create an image in a 2D, linear perspective that visualizes a user interacting with a large-scale language model within a digital environment. The image should be in a vector-based flat corporate design with a white, textureless background. Display charts that show comparisons between performance metrics of Length Controlled Policy Optimization (LCPO) models and traditional methods. Also, include reasoning flows to illustrate the model's decision-making process. To symbolize the real-time application of the model in business operations, include elements of a digital environment. Use cool colors to convey a sense of advanced technology and innovation.

    Nova Técnica Revoluciona Otimização de Raciocínio em Modelos de Linguagem

    Illustrate a 2D, linear perspective image in a corporate, flat and vector style. The image has a textureless, white background. In the foreground, focus on a central figure who symbolizes a leadership role in AI, but not specifically Stephen Peacock. He is explaining the application of AI in game development. Include a visual context of the game development environment and a logo symbolizing an international game development provider, but not specifically the Keywords Studios logo.

    Keywords Studios Lança Soluções de IA para Desenvolvimento de Jogos

    Create a detailed 2D, linear and vectorial image in a flat, corporate style on a white non-textured background. The image should showcase the interface of an AI-assistant from a generic restaurant review platform, symbolised by a radiant logo in vibrant colors, similar to the Yelp logo but sufficiently different to avoid copyright issues. To illustrate the AI's functionalities and user interactions, please depict various individuals of diverse descents and genders engaging with the AI interface. Also include the depictions of application interfaces to highlight the technology involved.

    Yelp Inova com Assistente de IA: Desafios e Avanços na Plataforma

    Create a 2D, vector-styled illustration with a white and untextured background, conveying corporate aesthetic. Depict the intersection of technology and entertainment, featuring elements of gaming and artificial intelligence. Incorporate graphic elements representing the evolution of games in the digital era, and artificial intelligence icons to symbolize technological integration in game development. Use bright, vibrant colors to convey emotion and innovation in the gaming industry. This image should not contain any identifiable figures or characters and should maintain a flat, linear perspective.

    Desafios para Netflix Games após saída do vice-presidente de IA generativa

    Fique por dentro das últimas novidades em IA

    Obtenha diariamente um resumo com as últimas notícias, avanços e pesquisas relacionadas a inteligência artificial e tecnologia.

    Obrigado pelo envio!

    logo genai

    GenAi Br © 2024

    • LinkedIn
    bottom of page