Intelligence Artificielle : Les Modèles Open Source à la Traîne en Médecine Face à GPT-4
Table of Contents
PARIS – 19 Juin 2025 –
Une récente étude scientifique a révélé les limites des modèles open source en intelligence artificielle dans le domaine médical. Qui sont les acteurs clés ? Quoi de neuf ? Où cela se passe-t-il ? Quand ont été menées les recherches ? Pourquoi ces modèles sont-ils à la traîne ? Cette étude met en évidence les disparités de performance entre les modèles d’IA open source et GPT-4 dans le contexte médical, ouvrant la voie à de nouvelles réflexions dans ce domaine.
“`html
Intelligence Artificielle : Les Modèles Open Source à la Traîne en Médecine Face à GPT-4
Le débat fait rage dans le monde de l’intelligence artificielle générative : faut-il privilégier l’open source ou les modèles propriétaires ? Cette question,loin d’être purement théorique,a des implications concrètes,notamment dans des domaines aussi sensibles que la médecine. Une récente étude scientifique met en lumière les arduousés rencontrées par certains modèles open source face à des géants comme GPT-4 d’OpenAI et Claude 2, dans un contexte médical réel.
Compréhension Médicale des IA : Un Test Révélateur
Des chercheurs de l’université Pepperdine, de l’UCLA et de l’UC Riverside ont soumis sept modèles linguistiques majeurs à un test de connaissances en néphrologie, la spécialité médicale dédiée aux reins. L’étude, publiée dans *Nejm Ai*, une publication du prestigieux *New England Journal of Medicine*, s’est appuyée sur 858 questions issues du NEPHSAP, le program d’auto-évaluation de l’American Society of Nephrology.
Le verdict est sans appel : GPT-4 a obtenu un score de 73,3 %, échouant de peu à atteindre les 75 % requis pour être considéré comme compétent au niveau humain. En revanche, Claude 2 a péniblement atteint 30,6 %, à peine au-dessus du niveau de réponses aléatoires (23,8 %). les autres modèles open source, tels que Vicuña et Falcon, n’ont pas brillé non plus.
Pourquoi GPT-4 et Claude 2 Dominent en Médecine
Selon les auteurs de l’étude, la principale raison des performances décevantes des modèles open source réside dans le manque d’accès à des données médicales de qualité. GPT-4 et Claude 2, développés respectivement par OpenAI et Anthropic, ont été entraînés non seulement sur des informations publiques, mais aussi sur des sources privées : manuels médicaux, articles scientifiques validés par des pairs et bases de données spécialisées.
Cet avantage confère aux modèles fermés une longueur d’avance considérable. “La disponibilité de données médicales validées et non publiques restera un facteur clé pour améliorer les performances des LLM dans les tâches cliniques”, concluent les chercheurs.