top of page

Gino News

terça-feira, 30 de julho de 2024

Inovações em Modelos de Difusão: Melhorando a Eficiência de Memória com Quanto e Diffusers

Tecnologia Inovação Inteligência Artificial

Recentemente, a aplicação de transformadores como base para modelos de difusão em tarefas de geração de imagens a partir de texto (T2I) tem crescido, porém, com exigências altas de memória. Um novo projeto visa otimizar essa demanda, utilizando ferramentas como o Quanto, da biblioteca Diffusers, para aumentar a eficiência de memória e facilitar a adoção da tecnologia.

Imagem gerada utilizando Dall-E 3

Nos últimos meses, a utilização de modelos baseados em transformers como a principal arquitetura para modelos de difusão tem se tornado uma tendência no campo da geração de imagens de alta resolução a partir de texto. Diferente dos modelos anteriores que empregavam a arquitetura UNet, estes novos modelos demonstram uma escalabilidade notável, com o número de parâmetros variando de 0,6 bilhões até 8 bilhões. Contudo, esse aumento na complexidade do modelo resulta em um aumento proporcional na demanda de memória.


A necessidade de memória é especialmente crítica nos pipelines de difusão, que são compostos por múltiplos modelos em série, incluindo codificadores de texto, modelos principais de difusão e decodificadores de imagem. Por exemplo, o Stable Diffusion 3, que utiliza três codificadores de texto, exige aproximadamente 18,765 GB de memória GPU para inferência em precisão FP16. Tais requisitos tornam difícil a execução desses modelos em GPUs de consumo, inibindo a adoção tecnológica e dificultando os experimentos.


O artigo apresenta uma solução através do uso da ferramenta de quantização Quanto, que permite melhorar a eficiência de memória dos pipelines baseados em transformers. A implementação de quanto é simples, e os testes mostram que a quantização de módulos pode resultar em uma economia significativa de memória com pouco impacto na qualidade de saída das imagens. Além disso, a quantização simultânea do codificador e do modelo principal gera uma economia ainda maior.


  1. Utilização de transformers na geração de imagens T2I.

  2. Escalabilidade de modelos varia de 0,6 a 8 bilhões de parâmetros.

  3. Stable Diffusion 3 exige alta memória para execução.

  4. Quanto é uma ferramenta de quantização para melhorar a eficiência.

  5. Quantização simultânea de codificador e modelo principal é recomendada.


O artigo conclui que a quantização não só é viável, mas também necessária para a viabilização dos modelos de difusão em ambientes de memória restrita. Com os avanços apresentados pelo Quanto, espera-se que a eficiência seja consideravelmente melhorada, facilitando a utilização de tecnologias de ponta em plataformas de menor custo.


A otimização de modelos de difusão por meio da utilização de Quanto e ferramentas afins pode abrir novas possibilidades para pesquisadores e desenvolvedores em inteligência artificial. Estar atento a essas inovações é essencial para manter-se à frente em um campo em constante evolução. Para mais conteúdos relacionados e atualizações diárias, não hesite em se inscrever em nossa newsletter!


 
FONTES:

    1. Hugging Face

    2. Stable Diffusion Documentation

    3. Quanto e Diffusers GitHub

    4. Blog da Hugging Face

    5. Documentation do PyTorch

    REDATOR

    Gino AI

    3 de outubro de 2024 às 22:23:14

    PUBLICAÇÕES RELACIONADAS

    Create an image in a 2D, linear perspective that visualizes a user interacting with a large-scale language model within a digital environment. The image should be in a vector-based flat corporate design with a white, textureless background. Display charts that show comparisons between performance metrics of Length Controlled Policy Optimization (LCPO) models and traditional methods. Also, include reasoning flows to illustrate the model's decision-making process. To symbolize the real-time application of the model in business operations, include elements of a digital environment. Use cool colors to convey a sense of advanced technology and innovation.

    Nova Técnica Revoluciona Otimização de Raciocínio em Modelos de Linguagem

    Create a 2D, linear visual representation using a flat, corporate illustration style. The image showcases an artificial intelligence model symbolized as a human brain made of circuits and connections, demonstrating the concept of reasoning and efficiency. These circuits should be set against a background that is a mix of blue and green symbolizing technology and innovation, on a textureless white base. The image must also incorporate a brightly shining light, suggestive of fresh ideas and innovations in the field. The overall color scheme should consist of cool tones to convey a professional and technological feel.

    Redução de Memória em Modelos de Raciocínio: Inovações e Desafios

    Depict a flat, corporate-style, vector image with a 2D linear perspective against a plain, white background showcasing the interface of a new Inference API by an artificial intelligence collective named Nous Research, based in New York. The interface should spotlight its features and developer interaction method. Include technology icons symbolizing innovation and growth charts representing Nous's evolution. Moreover, incorporate an illustration of a diverse team of developers: a black woman writing codes, a white man debugging, a Hispanic woman performing tests, and a Middle-Eastern man planning the next sprint. These diverse developers symbolize the community that will employ the API.

    Nous Research Lança API Revolucionária para Desenvolvedores de AI

    Generate a linear, 2D perspective image in a corporate, vector, and flat style visualization. The scene is set on a plain, texture-free white background. It features a presentation layout for a webinar titled 'Webinar about Digitizer ADQ35-WB' decided to take place on Tuesday, March 25, 2025, at 10 AM (Pacific) and 1 PM (Eastern). The central elements include an image of the advanced, impressively capable ADQ35-WB digitizer, which gives a unique opportunity for interested developers to learn about its applications and specifications, as well as visual depictions of performance charts which outline its capabilities. The Teledyne LeCroy logo is also incorporated within, strengthening the brand's recognition.

    Webinar Revela Potencial do Digitizer ADQ35-WB: Inscreva-se Já!

    Fique por dentro das últimas novidades em IA

    Obtenha diariamente um resumo com as últimas notícias, avanços e pesquisas relacionadas a inteligência artificial e tecnologia.

    Obrigado pelo envio!

    logo genai

    GenAi Br © 2024

    • LinkedIn
    bottom of page