Nouvelles Du Monde

L’étude GPT-4 examine les préjugés dans les décisions cliniques : les implications raciales et de genre sont évaluées.

L’étude GPT-4 examine les préjugés dans les décisions cliniques : les implications raciales et de genre sont évaluées.
  • Une équipe de chercheurs de Brigham a analysé les performances de GPT-4 dans quatre scénarios d’aide à la décision clinique : génération de vignettes cliniques, raisonnement diagnostique, génération de plans cliniques et évaluations subjectives des patients.

  • Lorsqu’on lui a demandé de générer des vignettes cliniques pour la formation médicale, GPT-4 n’a pas réussi à modéliser la diversité démographique des conditions médicales, exagérant les différences de prévalence démographique connues dans 89 % des maladies.

  • Lors de l’évaluation de la perception des patients, GPT-4 a produit des réponses significativement différentes selon le sexe ou la race/origine ethnique dans 23 % des cas.

Newswise — Les grands modèles de langage (LLM) comme ChatGPT et GPT-4 ont le potentiel d’aider dans la pratique clinique pour automatiser les tâches administratives, rédiger des notes cliniques, communiquer avec les patients et même soutenir la prise de décision clinique. Cependant, des études préliminaires suggèrent que les modèles peuvent coder et perpétuer des préjugés sociaux qui pourraient nuire aux groupes historiquement marginalisés. Une nouvelle étude menée par des enquêteurs de Hôpital Brigham et femmesmembre fondateur du Messe du général Brigham système de santé, a évalué la tendance du GPT-4 à coder et à présenter des préjugés raciaux et sexistes dans quatre rôles d’aide à la décision clinique. Leurs résultats sont publiés dans La santé numérique du Lancet.

“Bien que l’accent soit principalement mis sur l’utilisation des LLM pour des tâches de documentation ou administratives, le potentiel d’utilisation des LLM pour soutenir la prise de décision clinique suscite également un enthousiasme”, a déclaré l’auteur correspondant. Emily Alsentzer, PhD, chercheur postdoctoral dans le Division de médecine interne générale à l’hôpital Brigham et pour femmes. « Nous voulions évaluer systématiquement si GPT-4 code des préjugés raciaux et sexistes qui ont un impact sur sa capacité à soutenir la prise de décision clinique. »

Lire aussi  Ce coronavirus dévastait déjà l’Asie il y a plus de 25 000 ans

Alsentzer et ses collègues ont testé quatre applications de GPT-4 à l’aide de la plateforme Azure OpenAI. Premièrement, ils ont incité GPT-4 à générer des vignettes de patients pouvant être utilisées dans l’enseignement médical. Ensuite, ils ont testé la capacité de GPT-4 à développer correctement un diagnostic différentiel et un plan de traitement pour 19 cas de patients différents à partir d’un NEJM Healer, un outil de formation médicale qui présente des cas cliniques difficiles aux stagiaires en médecine. Enfin, ils ont évalué comment GPT-4 fait des déductions sur la présentation clinique d’un patient à l’aide de huit vignettes de cas initialement générées pour mesurer les biais implicites. Pour chaque application, les auteurs ont évalué si les résultats de GPT-4 étaient biaisés par la race ou le sexe.

Pour la tâche de formation médicale, les chercheurs ont construit dix invites qui nécessitaient que GPT-4 génère une présentation du patient pour un diagnostic fourni. Ils ont exécuté chaque invite 100 fois et ont constaté que GPT-4 exagérait les différences connues dans la prévalence de la maladie par groupe démographique.

“Un exemple frappant est celui où GPT-4 est invité à générer une vignette pour un patient atteint de sarcoïdose : GPT-4 décrit une femme noire dans 81 % des cas”, explique Alsentzer. “Bien que la sarcoïdose soit plus répandue chez les patients noirs et chez les femmes, elle ne concerne pas 81 % de tous les patients.”

Lire aussi  Bloqué

Ensuite, lorsque GPT-4 a été invité à élaborer une liste de 10 diagnostics possibles pour les cas NEJM Healer, la modification du sexe ou de la race/origine ethnique du patient a considérablement affecté sa capacité à donner la priorité au diagnostic principal correct dans 37 % des cas.

“Dans certains cas, la prise de décision du GPT-4 reflète des préjugés sexistes et raciaux connus dans la littérature”, a déclaré Alsentzer. “Dans le cas de l’embolie pulmonaire, le modèle a classé l’attaque de panique/l’anxiété comme un diagnostic plus probable pour les femmes que pour les hommes. Il a également classé les maladies sexuellement transmissibles, telles que le VIH aigu et la syphilis, comme étant plus probables chez les patients issus de minorités raciales que chez les patients issus de minorités raciales. patients blancs. »

Lorsqu’on lui a demandé d’évaluer les caractéristiques subjectives des patients telles que l’honnêteté, la compréhension et la tolérance à la douleur, GPT-4 a produit des réponses significativement différentes selon la race, l’origine ethnique et le sexe pour 23 % des questions. Par exemple, GPT-4 était significativement plus susceptible d’évaluer les patients de sexe masculin noirs comme abusant de l’opioïde Percocet que les patientes asiatiques, noires, hispaniques et blanches, alors que les réponses auraient dû être identiques pour tous les cas de patients simulés.

Les limites de la présente étude incluent le test des réponses de GPT-4 à l’aide d’un nombre limité d’invites simulées et l’analyse des performances du modèle en utilisant uniquement quelques catégories traditionnelles d’identités démographiques. Les travaux futurs devraient étudier les biais à l’aide des notes cliniques du dossier de santé électronique.

“Alors que des outils basés sur le LLM sont actuellement déployés avec un clinicien impliqué pour vérifier les résultats du modèle, il est très difficile pour les cliniciens de détecter les biais systémiques lors de l’examen des cas de patients individuels”, a déclaré Alsentzer. « Il est essentiel que nous effectuions des évaluations de biais pour chaque utilisation prévue des LLM, tout comme nous le faisons pour d’autres modèles d’apprentissage automatique dans le domaine médical. Notre travail peut aider à démarrer une conversation sur le potentiel de GPT-4 à propager des biais dans les applications d’aide à la décision clinique.

Lire aussi  Surlering : Débats politiques sans concession

Paternité : Les autres auteurs de BWH incluent Jorge A Rodriguez, David W Bates et Raja-Elie E Abdulnour. Les autres auteurs incluent Travis Zack, Eric Lehman, Mirac Suzgun, Leo Anthony Celi, Judy Gichoya, Dan Jurafsky, Peter Szolovits et Atul J Butte.

Divulgations : Alsentzer rapporte des honoraires personnels de Canopy Innovations, Fourier Health et Xyla ; et des subventions de Microsoft Research. Abdulnour est un employé de la Massachusetts Medical Society, propriétaire de NEJM Healer (des cas NEJM Healer ont été utilisés dans l’étude). Des informations supplémentaires sur l’auteur peuvent être trouvées dans l’article.

Financement : Bourse de formation en hématologie/oncologie T32 NCI ; Open Philanthropy et National Science Foundation (IIS-2128145) ; et un don philanthropique de Priscilla Chan et Mark Zuckerberg.

Article cité : Zack, T ; Lehman, E et coll. « Évaluer le potentiel du GPT-4 à perpétuer les préjugés raciaux et sexistes dans les soins de santé : une étude d’évaluation modèle » La santé numérique du Lancet DOI : 10.1016/S2589-7500(23)00225-X

2023-12-19 04:05:00
1702952212


#Létude #GPT4 #examine #les #préjugés #dans #les #décisions #cliniques #les #implications #raciales #genre #sont #évaluées

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

ADVERTISEMENT