top of page

Gino News

terça-feira, 8 de outubro de 2024

Molmo da AI2 Supera GPT-4 e Claude em Benchmarks Chave

Inteligência Artificial Tecnologia Inovação

O Allen Institute for AI (AI2) apresentou hoje o Molmo, um modelo multimodal de inteligência artificial open-source que supera concorrentes como GPT-4o da OpenAI e Claude 3.5 da Anthropic em diversos benchmarks, prometendo avanços significativos na análise de imagens.

Depict a vector-style, 2D corporate flat design scene following a linear perspective. In this setting, the Molmo model, an open-source multimodal artificial intelligence model from the Allen Institute for AI, is shown operating on a user interface. This displays Molmo's image analysis capabilities and visual interactions. The scene is set up for a live demonstration where Molmo is responding to questions about the content of the image in front of it. Additional elements in the scene are user interface evidencing a Molmo-user interaction, examples of images representing the type of visuals analysed by Molmo, performance charts showing benchmark comparisons between Molmo and its rivals. Use a white, untextured background and populate the design with technology-inspired colors of blue and green.

Imagem gerada utilizando Dall-E 3

O Molmo (Multimodal Open Language Model), desenvolvido pelo AI2, é um modelo revolucionário que se destaca não como um chatbot convencional, mas como um motor de compreensão visual altamente eficiente. Sem uma API ou funcionalidade de site, Molmo é projetado para análise de imagens e respostas a consultas baseadas em visuais, tendo seu desempenho testado em vários benchmarks em comparação com gigantes do setor.


Com quatro versões — Molmo-72B, Molmo-7B-D, Molmo-7B-O e MolmoE-1B —, o Molmo é capaz de realizar tarefas visuais, como identificar opções em menus veganos ou explicar o funcionamento de electrodomésticos, superando alternativas proprietárias em eficiência. Seu modelo mais robusto, o Molmo-72B, conseguiu as melhores pontuações em 11 benchmarks principais, posicionando-se como o segundo em preferência dos usuários, logo atrás do GPT-4o.


O Molmo, que elimina a premissa de que 'quanto maior, melhor' em inteligência artificial, foi treinado com 600.000 imagens cuidadosamente anotadas, ao contrário de bilhões utilizadas por modelos concorrentes. Essa abordagem resultou em um modelo que, apesar do tamanho reduzido, apresenta desempenho equivalente ao de modelos como GPT-4o e Claude 3.5 Sonnet, destacando-se especialmente em tarefas de 'zero-shot' como contagem de objetos.


  1. Molmo utiliza apenas 1000x menos dados que seus concorrentes proprietários.

  2. Desempenho superior em benchmarks como DocVQA e TextVQA.

  3. Modelo open-source, permitindo acesso a pesquisadores e desenvolvedores.

  4. Inovação no uso de dados de apontamento, melhorando a interação robótica.

  5. Desenvolvimento de um pipeline de treinamento otimizado sem reforço de aprendizado de feedback humano.


A arquitetura do Molmo prioriza a eficiência, utilizando o modelo CLIP da OpenAI como encoder visual, o que permite uma transformação eficaz de imagens em tokens visuais. Com um sistema de treinamento dividido em pré-treinamento multimodal e refinamento supervisionado, Molmo se destaca pela falta de dependência de métodos tradicionais como RLHF, resultando em um modelo altamente competente.


- Capacidade de análise visual superior. - Acesso democrático à tecnologia. - Evidência de que menores modelos podem ter grande desempenho. - Potencial impacto na evolução das interações robóticas. - Inovação em métodos de treinamento de IA.


Com um ambiente de desenvolvimento que favorece inovações sem os custos associados aos grandes sistemas, o Molmo não apenas desafia os dominantes no campo da inteligência artificial, como também reitera a importância do acesso e personalização na tecnologia.


A criação do Molmo representa um marco no campo da inteligência artificial, incentivando desenvolvedores e pesquisadores a explorar novas possibilidades sem as limitações impostas por grandes corporações. Para acompanhar mais novidades e análises sobre inovações em IA, assine nossa newsletter e fique sempre atualizado.


 
FONTES:

    1. VentureBeat

    2. Blog do AI2

    3. Hugging Face

    4. AI Chief

    5. Twitter AI2

    REDATOR

    Gino AI

    8 de outubro de 2024 às 22:49:35

    PUBLICAÇÕES RELACIONADAS

    Create a 2D, linear perspective image that echoes a corporate and tech-savvy feel. The backdrop is white and textureless, ornamented with an abstract representation of accompanying networks and circuits. Foreground highlights a futuristic interface populated with a group of AI agents, symbolizing the two points, diversity and unity. Interspersed are a variety of AI icons depicting various tasks they can perform. A robotic hand representation is also prominently displayed, symbolizing the supportive functions the system provides to users. Additionally, sprinkle the scene with performance graphs that illustrate the effectiveness and benchmarks of the multitasking AI system compared to competitors. Capture elements of Flat and Vector design styles in the composition.

    Manus: O Novo Sistema de IA que Promete Revolucionar Tarefas Autônomas

    Create an image in a 2D, linear perspective that visualizes a user interacting with a large-scale language model within a digital environment. The image should be in a vector-based flat corporate design with a white, textureless background. Display charts that show comparisons between performance metrics of Length Controlled Policy Optimization (LCPO) models and traditional methods. Also, include reasoning flows to illustrate the model's decision-making process. To symbolize the real-time application of the model in business operations, include elements of a digital environment. Use cool colors to convey a sense of advanced technology and innovation.

    Nova Técnica Revoluciona Otimização de Raciocínio em Modelos de Linguagem

    Illustrate a 2D, linear perspective image in a corporate, flat and vector style. The image has a textureless, white background. In the foreground, focus on a central figure who symbolizes a leadership role in AI, but not specifically Stephen Peacock. He is explaining the application of AI in game development. Include a visual context of the game development environment and a logo symbolizing an international game development provider, but not specifically the Keywords Studios logo.

    Keywords Studios Lança Soluções de IA para Desenvolvimento de Jogos

    Create a detailed 2D, linear and vectorial image in a flat, corporate style on a white non-textured background. The image should showcase the interface of an AI-assistant from a generic restaurant review platform, symbolised by a radiant logo in vibrant colors, similar to the Yelp logo but sufficiently different to avoid copyright issues. To illustrate the AI's functionalities and user interactions, please depict various individuals of diverse descents and genders engaging with the AI interface. Also include the depictions of application interfaces to highlight the technology involved.

    Yelp Inova com Assistente de IA: Desafios e Avanços na Plataforma

    Fique por dentro das últimas novidades em IA

    Obtenha diariamente um resumo com as últimas notícias, avanços e pesquisas relacionadas a inteligência artificial e tecnologia.

    Obrigado pelo envio!

    logo genai

    GenAi Br © 2024

    • LinkedIn
    bottom of page