26 octobre 2025
3 minutes de lecture
Points clés à retenir :
Table of Contents
- Le jugement clinique humain et les LLM ont conduit à une précision diagnostique optimale.
- La synergie met en évidence la manière dont les LLM peuvent être utilisés pour aider les apprenants à explorer des diagnostics différentiels plus larges.
CHICAGO- Grands modèles de langagelorsqu’il est utilisé parallèlement au jugement clinique humain, a « considérablement » amélioré la précision du diagnostic parmi une cohorte d’étudiants en médecine, selon les données présentées à l’ACR Convergence 2025.
« Nous avons mené cette étude parce que raisonnement diagnostique en rhumatologie est particulièrement complexe en raison de la nature multisystémique des maladies rhumatismales et de leurs présentations souvent subtiles et qui se chevauchent. Johannes Knitza, MD, Doctorat, de l’Institut de médecine numérique de l’hôpital universitaire de Giessen-Marburg, Université Philipps, en Allemagne, a déclaré à Healio.
« Nous avons reconnu que les grands modèles de langage (LLM) pourraient potentiellement prendre en charge étudiants en médecine qui deviendront très bientôt médecins pour structurer leur raisonnement diagnostique et identifier les diagnostics différentiels pertinents”, a-t-il ajouté. “Cependant, jusqu’à présent, il n’existait aucune preuve empirique montrant si l’intégration d’un LLM dans le processus de diagnostic pouvait réellement améliorer la précision et la confiance en rhumatologie.”
Dans l’essai contrôlé randomisé en cours, Knitza et ses collègues ont évalué l’impact de l’assistance LLM sur le raisonnement diagnostique chez 68 étudiants en médecine. Les participants ont été affectés à un groupe d’intervention ayant accès à ChatGPT-4o ainsi qu’à des ressources de diagnostic conventionnelles, ou à un groupe témoin ayant accès uniquement aux ressources conventionnelles. Tous les participants ont complété trois vignettes de cas de rhumatologie – présentant la granulomatose avec polyangéite, la polyarthrite rhumatoïde et le lupus érythémateux disséminé – du centre d’apprentissage en ligne de l’American College of Rheumatology. Chaque cas nécessitait un diagnostic approfondi, ainsi que jusqu’à cinq suggestions au total, ont écrit les chercheurs.
Les étudiants du groupe d’intervention ont d’abord formulé leurs propres suggestions à l’aide de ressources conventionnelles, puis ont été autorisés à réviser leurs réponses après avoir utilisé le LLM. Les suggestions ont été examinées de manière indépendante et aveugle par deux rhumatologues certifiés, avec deux points attribués pour les diagnostics corrects et un point pour les alternatives plausibles.
Selon les chercheurs, 77,5 % des participants du groupe d’intervention ont identifié le diagnostic principal, contre 32,4 % dans le groupe témoin (P. < 0,001). Les membres du groupe d'intervention étaient également plus susceptibles que les témoins d'inclure un diagnostic correct parmi leurs cinq principales suggestions : 91,2 % contre 47,1 % (P. < 0,001).
De plus, les performances du LLM seul ont dépassé celles des étudiants utilisant uniquement des ressources conventionnelles, identifiant le bon diagnostic en premier dans 71,6 % des cas, et parmi les cinq premiers dans 72,5 % des cas.
“Nous avons été frappés par la façon dont le LLM a amélioré la précision du diagnostic”, a déclaré Knitza. “Les étudiants assistés par le LLM sont parvenus au diagnostic principal correct dans plus de trois cas sur quatre, contre environ un sur trois dans le groupe témoin. Il est tout aussi intéressant de constater que la combinaison du raisonnement humain et des apports du LLM a surpassé le LLM seul, suggérant un véritable effet synergique plutôt qu’une simple dépendance au modèle.”
D’autres données ont montré que les scores diagnostiques médians par cas étaient de 4 (IQR, 3-5) dans le groupe d’intervention, de 2 (IQR, 1-3) pour les témoins et de 5 (IQR, 3,3-6) pour le LLM. Le délai médian jusqu’à l’achèvement du cas était plus long dans le groupe d’intervention que dans le groupe témoin : 498 secondes (IQR, 371-609) contre 253 secondes (IQR, 175-395).
Les chercheurs ont également observé une augmentation significative de la proportion de diagnostics principaux corrects parmi les participants du groupe d’intervention, de 46,1 % à 77,5 % (P < 0,001).
La confiance diagnostique a également augmenté pour les participants du groupe d’intervention après avoir utilisé le LLM (P. < 0,001).
“Nous concluons que les LLM peuvent améliorer de manière significative le raisonnement diagnostique des étudiants en médecine et probablement aussi des médecins ayant une expérience limitée en rhumatologie, lorsqu’ils sont utilisés de manière réfléchie comme outils d’aide à la décision”, a déclaré Knitza. « La combinaison du jugement clinique humain avec l’assistance de l’IA peut améliorer les performances et la confiance du diagnostic.
« Cette synergie met en évidence le fait que les LLM ne doivent pas être considérés comme des substituts à l’expertise médicale, mais comme des outils pouvant aider les apprenants à raisonner plus systématiquement et à explorer des diagnostics différentiels plus larges, en particulier dans des domaines complexes tels que la rhumatologie », a-t-il ajouté.
Pour plus d’informations :
Johannes Knitza, MD, Doctorat, peut être contacté à [email protected].
