top of page

Gino News

sexta-feira, 14 de fevereiro de 2025

Inovação em Transferência de Memória: A Jornada a 3200 Gbps com AWS Sagemaker Hyperpod

Tecnologia Inovação Deep Learning

Em 10 de fevereiro de 2025, a equipe da Perplexity detalhou sua experiência inovadora em transferências de memória GPU em larga escala na plataforma AWS p5, alcançando uma notável taxa de transferência de 3108 Gbps, ou 97,1% da capacidade teórica da rede, através de uma solução customizada de alto desempenho.

Create a 2D, flat style, corporate vector image on a white, untextured background. The image depicts a technical illustration of large-scale GPU memory transfers on the AWS p5 platform. They've achieved a remarkable throughput of 3108 Gbps, 97.1% of the network's theoretical capacity on February 10, 2025, using a high-performance custom solution. It visualizes the architecture and data transfer between GPUs using RDMA, with detailed views of data paths, GPUs, and network structures to facilitate understanding of the process. The image also includes diagrams contrasting TCP/IP and RDMA, arrows indicating data flow between the GPUs, and labels for clearly identifying each part of the presented architecture.

Imagem gerada utilizando Dall-E 3

A infraestrutura moderna de deep learning exige a transferência eficiente de grandes volumes de dados entre GPUs, especialmente em ambientes de alta demanda. A Perplexity enfrentou o desafio de transferir regiões de memória GPU não contíguas entre máquinas, visando a velocidade máxima. Aproveitando a rede de 3200 Gbps da AWS p5, a equipe desenvolveu uma solução inovadora de redes de alto desempenho.


Os requisitos técnicos do projeto incluíam a criação de um sistema que suportasse transferências de memória não contíguas com altíssima largura de banda e a habilidade para adicionar ou remover nós em tempo real no Kubernetes. Embora a biblioteca NCCL da NVIDIA fosse uma opção padrão, suas limitações em relação à comunicação assíncrona e controle direto sobre os padrões de transferência levaram a equipe a desenvolver sua própria solução.


A equipe utilizou o framework libfabric para estabelecer uma comunicação RDMA (Remote Direct Memory Access), que permite a transferência direta de dados entre a memória GPU e o cartão de rede, eliminando a necessidade de intervenção da CPU. Com várias otimizações, como enfileiramento de operações e alocação de recursos ciente da arquitetura NUMA, conseguiram otimizar a comunicação entre 32 cartões de rede, alcançando 97,1% do desempenho teórico.


  1. Implementação de comunicação bidirecional.

  2. Adição de GPUDirect RDMA WRITE para transferências diretas entre GPUs.

  3. Otimizando transferências simultâneas entre várias GPUs.

  4. Introdução de técnicas de enfileiramento de operações.

  5. Ajustes de alocação de recursos baseados em NUMA.


A jornada da Perplexity evidencia que, embora ferramentas existentes como a NCCL sejam eficazes para muitos cenários, a personalização é vital em contextos específicos. A equipe conseguiu não apenas otimizar a transferência de dados, mas também demonstrar um uso eficiente da infraestrutura de rede avançada da AWS, resultando em altas taxas de transferência e mostrando como otimizações no design do sistema podem levar a resultados significativos.


- Importância do design de sistemas para alta performance. - A relevância da customização em soluções de rede. - Impacto da tecnologia RDMA na eficiência da transferência de dados.


No geral, a experiência da Perplexity não apenas destaca o potencial da AWS e suas soluções de rede de alto desempenho, mas também incentiva outras empresas a explorarem soluções personalizadas que podem superar as limitações das abordagens padrões. Com o advento de tecnologias cada vez mais avançadas, a eficiência na transferência de dados se torna crítica para o sucesso de projetos em deep learning.


A jornada para construir uma rede de alto desempenho exige um entendimento profundo da arquitetura de hardware e dos princípios de design do sistema. As lições aprendidas pela Perplexity servem como um guia para outras empresas que buscam otimizar suas operações em ambientes de alta demanda. Os leitores são convidados a acompanhar mais conteúdos como este em nossa newsletter, que traz atualizações diárias sobre inovações tecnológicas e soluções em deep learning.


FONTES:

    1. AWS - Elastic Fabric Adapter

    2. AWS - Scalable Reliable Datagram

    3. GitHub - Repo da Perplexity

    REDATOR

    Gino AI

    14 de fevereiro de 2025 às 10:20:02

    PUBLICAÇÕES RELACIONADAS

    Create a 2D, vector-style artwork set in a clinical setting. On a white, textureless background, illustrate the scene with a flat and corporate aesthetic. A healthcare professional is preparing to administer an injection of lenacapavir to a diverse group of patients. The syringe is a visual symbol of the innovative treatment. The patients, representing a broad range of genders and descents such as Middle-Eastern female, Hispanic male, and South Asian transgender person, convey hope and are the beneficiaries of this advancement. The environment, symbolizing the seriousness of the treatment, is a doctor's office furnished with charts and graphs indicating the reduction in HIV infections due to the new treatment. Use a colour palette consisting of shades of blue and green to transmit trust and hope.

    Lenacapavir: Injeção Anual Promissora para Prevenção do HIV

    Illustration in a vectorial, flat, and corporate style showing a diverse team of employees interacting with AI technology in a modern office setting. The team consists of a Caucasian man, a Hispanic woman, a Middle-Eastern man, and a Black woman. They're gathered around computers showcasing innovation and AI while also displaying a whiteboard with graphs symbolizing planning and collaboration. The modern office environment underlines the concept of a collaborative workspace. The whole scene is set against a white, textureless backdrop, following a 2D linear perspective to uphold the flat design of the illustration.

    Anthropic Lança Plataforma Colaborativa para Democratizar o Uso de IA em Empresas

    Illustrate a Canadian AI startup, Cohere's new generative model, Command A, showcased for business applications. This future technology, reported on March 13, 2025, requires just two GPUs, offering enhanced multilingual performance and doubling the context capacity to 256,000 tokens. The image must represent Command A's AI model in a corporate environment, with graphics representing its performance and integration across various platforms. Adopt a 2D linear perspective and flat vector style and maintain a white, texture-less background. Additional elements should include a performance graph, showcasing Command A's efficiency and speed, Cohere's logo, visual elements of various languages symbolizing the model's multilingual capability, and an office environment for the model's business application context.

    Cohere Lança Modelo de IA Multilíngue Command A com Impulsionamento para Empresas

    Envision a 2D, linear perspective image set on a white, textureless background. The image is in a corporate, vector, and flat style. It depicts the immense impact of the Agilex 3 FPGAs on the digital transformation. To symbolize innovation and technology, use vibrant colors. Display intricately designed circuits and electronic components to represent the complexity and functionality of the FPGAs. Show robotics and sensors too, illustrating their practical applications in various industries. Also, incorporate elements that symbolize the increasing role of artificial intelligence in the world.

    Altera Lança Agilex 3 FPGAs para Aumentar a Inteligência na Edge

    Fique por dentro das últimas novidades em IA

    Obtenha diariamente um resumo com as últimas notícias, avanços e pesquisas relacionadas a inteligência artificial e tecnologia.

    Obrigado pelo envio!

    logo genai

    GenAi Br © 2024

    • LinkedIn
    bottom of page