Molmo da AI2 Supera GPT-4 e Claude em Benchmarks Chave

Inteligência Artificial Tecnologia Inovação

O Allen Institute for AI (AI2) apresentou hoje o Molmo, um modelo multimodal de inteligência artificial open-source que supera concorrentes como GPT-4o da OpenAI e Claude 3.5 da Anthropic em diversos benchmarks, prometendo avanços significativos na análise de imagens.

Depict a vector-style, 2D corporate flat design scene following a linear perspective. In this setting, the Molmo model, an open-source multimodal artificial intelligence model from the Allen Institute for AI, is shown operating on a user interface. This displays Molmo's image analysis capabilities and visual interactions. The scene is set up for a live demonstration where Molmo is responding to questions about the content of the image in front of it. Additional elements in the scene are user interface evidencing a Molmo-user interaction, examples of images representing the type of visuals analysed by Molmo, performance charts showing benchmark comparisons between Molmo and its rivals. Use a white, untextured background and populate the design with technology-inspired colors of blue and green.

Imagem gerada utilizando Dall-E 3

O Molmo (Multimodal Open Language Model), desenvolvido pelo AI2, é um modelo revolucionário que se destaca não como um chatbot convencional, mas como um motor de compreensão visual altamente eficiente. Sem uma API ou funcionalidade de site, Molmo é projetado para análise de imagens e respostas a consultas baseadas em visuais, tendo seu desempenho testado em vários benchmarks em comparação com gigantes do setor.

Com quatro versões — Molmo-72B, Molmo-7B-D, Molmo-7B-O e MolmoE-1B —, o Molmo é capaz de realizar tarefas visuais, como identificar opções em menus veganos ou explicar o funcionamento de electrodomésticos, superando alternativas proprietárias em eficiência. Seu modelo mais robusto, o Molmo-72B, conseguiu as melhores pontuações em 11 benchmarks principais, posicionando-se como o segundo em preferência dos usuários, logo atrás do GPT-4o.

O Molmo, que elimina a premissa de que 'quanto maior, melhor' em inteligência artificial, foi treinado com 600.000 imagens cuidadosamente anotadas, ao contrário de bilhões utilizadas por modelos concorrentes. Essa abordagem resultou em um modelo que, apesar do tamanho reduzido, apresenta desempenho equivalente ao de modelos como GPT-4o e Claude 3.5 Sonnet, destacando-se especialmente em tarefas de 'zero-shot' como contagem de objetos.

Molmo utiliza apenas 1000x menos dados que seus concorrentes proprietários.
Desempenho superior em benchmarks como DocVQA e TextVQA.
Modelo open-source, permitindo acesso a pesquisadores e desenvolvedores.
Inovação no uso de dados de apontamento, melhorando a interação robótica.
Desenvolvimento de um pipeline de treinamento otimizado sem reforço de aprendizado de feedback humano.

A arquitetura do Molmo prioriza a eficiência, utilizando o modelo CLIP da OpenAI como encoder visual, o que permite uma transformação eficaz de imagens em tokens visuais. Com um sistema de treinamento dividido em pré-treinamento multimodal e refinamento supervisionado, Molmo se destaca pela falta de dependência de métodos tradicionais como RLHF, resultando em um modelo altamente competente.

- Capacidade de análise visual superior. - Acesso democrático à tecnologia. - Evidência de que menores modelos podem ter grande desempenho. - Potencial impacto na evolução das interações robóticas. - Inovação em métodos de treinamento de IA.

Com um ambiente de desenvolvimento que favorece inovações sem os custos associados aos grandes sistemas, o Molmo não apenas desafia os dominantes no campo da inteligência artificial, como também reitera a importância do acesso e personalização na tecnologia.

A criação do Molmo representa um marco no campo da inteligência artificial, incentivando desenvolvedores e pesquisadores a explorar novas possibilidades sem as limitações impostas por grandes corporações. Para acompanhar mais novidades e análises sobre inovações em IA, assine nossa newsletter e fique sempre atualizado.