Google Gemma 2 2B: Desempenho Promissor em Dispositivos Móveis

Tecnologia Inteligência Artificial Dispositivos Móveis

O modelo Gemma 2 2B da Google está mostrando desempenho eficiente em diversos dispositivos móveis, conforme relatos de testes iniciais de usuários. Os testes destacam a capacidade do modelo em smartphones como o Motorola g84 e o iPhone 15 Pro, com tempos de resposta rápidos e uso otimizado de memória.

Imagem gerada utilizando Dall-E 3

O modelo Gemma 2 2B da Google tem apresentado desempenho robusto em dispositivos móveis, de acordo com feedbacks recentes de usuários. Em um smartphone Motorola g84, as versões quantizadas Q4 e Q8 do modelo conseguem gerar mais de 4 tokens por segundo, utilizando pouca memória no frontend Layla. A versão otimizada para dispositivos ARM, desenvolvida por ThomasBaruzier, melhora ainda mais o desempenho, alcançando entre 5,5 e 6,1 tokens por segundo e carregando em menos de dez segundos.

Desempenho de mais de 4 tokens por segundo nas versões Q4 e Q8.
Versão otimizada para ARM alcança 6,1-5,5 tokens por segundo.
Tempo de carregamento inicial de 15-20 segundos, reduzido para menos de 10 segundos na versão otimizada.

Os testes no Motorola g84 também revelaram que o modelo responde bem a ajustes de temperatura e possui um vocabulário diversificado. Ele pode lidar com contextos de 8-16k em telefones com 6-8GB de RAM, com uma leve desaceleração para contextos maiores. Apesar de algumas inconsistências lógicas e a tendência de dividir histórias em capítulos, essas falhas são menos frequentes em comparação com outros modelos pequenos.

- Responde bem a ajustes de temperatura. - Vocabulário diversificado. - Lida com contextos de 8-16k em dispositivos com 6-8GB de RAM. - Inconsistências lógicas e divisão de histórias em capítulos são menos frequentes.

Em um iPhone 15 Pro, outro usuário executou o modelo Gemma 2B quantizado usando MLX Swift, relatando desempenho comparável ao GPT 3.5 turbo e Mixtral 8x7B nos benchmarks da LMSys.org. O código e a documentação para essa implementação estão disponíveis no GitHub, permitindo que outros interessados repliquem ou aprimorem esse trabalho.

O modelo Gemma 2 2B da Google está se mostrando uma solução promissora para a execução de IA em dispositivos móveis, com desempenho notável e otimizações específicas para diferentes plataformas. À medida que mais usuários testam e fornecem feedback, espera-se que o modelo continue a evoluir, oferecendo ainda mais eficiência e capacidade em futuros desenvolvimentos.