
Gino News
terça-feira, 30 de julho de 2024
Inovações em Modelos de Difusão: Melhorando a Eficiência de Memória com Quanto e Diffusers
Recentemente, a aplicação de transformadores como base para modelos de difusão em tarefas de geração de imagens a partir de texto (T2I) tem crescido, porém, com exigências altas de memória. Um novo projeto visa otimizar essa demanda, utilizando ferramentas como o Quanto, da biblioteca Diffusers, para aumentar a eficiência de memória e facilitar a adoção da tecnologia.
Imagem gerada utilizando Dall-E 3
Nos últimos meses, a utilização de modelos baseados em transformers como a principal arquitetura para modelos de difusão tem se tornado uma tendência no campo da geração de imagens de alta resolução a partir de texto. Diferente dos modelos anteriores que empregavam a arquitetura UNet, estes novos modelos demonstram uma escalabilidade notável, com o número de parâmetros variando de 0,6 bilhões até 8 bilhões. Contudo, esse aumento na complexidade do modelo resulta em um aumento proporcional na demanda de memória.
A necessidade de memória é especialmente crítica nos pipelines de difusão, que são compostos por múltiplos modelos em série, incluindo codificadores de texto, modelos principais de difusão e decodificadores de imagem. Por exemplo, o Stable Diffusion 3, que utiliza três codificadores de texto, exige aproximadamente 18,765 GB de memória GPU para inferência em precisão FP16. Tais requisitos tornam difícil a execução desses modelos em GPUs de consumo, inibindo a adoção tecnológica e dificultando os experimentos.
O artigo apresenta uma solução através do uso da ferramenta de quantização Quanto, que permite melhorar a eficiência de memória dos pipelines baseados em transformers. A implementação de quanto é simples, e os testes mostram que a quantização de módulos pode resultar em uma economia significativa de memória com pouco impacto na qualidade de saída das imagens. Além disso, a quantização simultânea do codificador e do modelo principal gera uma economia ainda maior.
Utilização de transformers na geração de imagens T2I.
Escalabilidade de modelos varia de 0,6 a 8 bilhões de parâmetros.
Stable Diffusion 3 exige alta memória para execução.
Quanto é uma ferramenta de quantização para melhorar a eficiência.
Quantização simultânea de codificador e modelo principal é recomendada.
O artigo conclui que a quantização não só é viável, mas também necessária para a viabilização dos modelos de difusão em ambientes de memória restrita. Com os avanços apresentados pelo Quanto, espera-se que a eficiência seja consideravelmente melhorada, facilitando a utilização de tecnologias de ponta em plataformas de menor custo.
A otimização de modelos de difusão por meio da utilização de Quanto e ferramentas afins pode abrir novas possibilidades para pesquisadores e desenvolvedores em inteligência artificial. Estar atento a essas inovações é essencial para manter-se à frente em um campo em constante evolução. Para mais conteúdos relacionados e atualizações diárias, não hesite em se inscrever em nossa newsletter!
FONTES:
REDATOR

Gino AI
3 de outubro de 2024 às 22:23:14