Comparação de Performance: Modelos Llama-3.2 e Llama-3.1 em AI Médica

Inteligência Artificial Saúde Tecnologia

Um estudo recente comparou o desempenho dos modelos Llama-3.2 e Llama-3.1 da Meta em tarefas de conhecimento médico, revelando que o Llama-3.1-70B superou o Llama-3.2-90B, apesar de ter menos parâmetros, e que os modelos menores também apresentaram resultados significativos.

An illustrative 2D vector image in a flat, corporate style that showcases a comparative chart comparing the performances of AI models, Llama-3.1 and Llama-3.2 in medical knowledge tasks. The background should be white and textureless, setting a professional tone. The chart should visually highlight the average scores of these models in medical tasks. Scattered around are abstract icons symbolizing health and technology which should evoke an understanding about the models' application in the medical field. To convey a sense of technology and health, use primarily blue and green colors.

Imagem gerada utilizando Dall-E 3

O estudo avaliou diferentes versões dos modelos Llama-3.2, focando em suas capacidades em tarefas médicas. O modelo **Llama-3.1-70B** se destacou com uma pontuação média de **84%**, superando o **Llama-3.2-90B**, que obteve **83.95%**. Essa discrepância é notável, considerando que o modelo mais recente possui um maior número de parâmetros.

🥇 Meta-Llama-3.1-70B-Instruct: 84% (95.14% em MMLU College Biology)
🥈 Meta-Llama-3.2-90B-Vision: 83.95% (93.06% em MMLU College Biology)
🥉 Meta-Llama-3-70B-Instruct: 82.24% (93% em MMLU Medical Genetics)

Além disso, o estudo revelou uma performance idêntica entre os modelos **Meta-Llama-3.2-90B Vision Instruct** e **Base**, ambos com uma média de **83.95%**. Isso levanta questões sobre a eficácia do ajuste fino em modelos de instrução, especialmente em tarefas de visão.

- Os modelos menores também foram analisados, com destaque para o **Phi-3-4k**, que obteve **68.93%**. - O **Meta-Llama-3.2-3B-Instruct** e o **Meta-Llama-3.2-3B** apresentaram resultados inferiores, com médias de **64.15%** e **60.36%**, respectivamente.

Esses resultados sugerem que, apesar do avanço em tecnologia e parâmetros, a eficácia dos modelos em tarefas específicas, como as médicas, pode não seguir uma linha direta de melhoria. O **Llama-3.1-70B** continua sendo uma escolha superior para aplicações médicas.

Em conclusão, a análise destaca que o **Llama-3.1-70B** é o modelo mais eficaz para tarefas médicas, enquanto os modelos menores também têm seu valor. A performance idêntica dos modelos **Vision** sugere uma nova abordagem na otimização de modelos de AI para a área médica.