Nouvelles Du Monde

Apprentissage automatique pour la prédiction du diabète sucré post-pancréatite aiguë et des recommandations de traitement personnalisées

Apprentissage automatique pour la prédiction du diabète sucré post-pancréatite aiguë et des recommandations de traitement personnalisées

Cohorte d’étude et caractéristiques de base

Entre le 1er octobre 2016 et le 31 octobre 2021, 3477 admissions pour PA ont été dépistées dans le système d’information hospitalier (SIH). Après avoir utilisé les critères d’exclusion décrits (Fig. 1 supplémentaire), 820 patients atteints de PA sans diabète connu ont été inclus dans notre étude. Parmi ceux-ci, les deux tiers (n = 574) ont été affectés au hasard à l’ensemble d’apprentissage, le tiers restant (n = 246) étant affecté à une cohorte de validation. Le tableau 1 montre les caractéristiques de base des patients. L’âge médian était de 50 (38, 63) ans. La proportion d’hommes était de 61,3 % (n = 503). Les voies biliaires étaient la cause la plus fréquente de PA. 484 (59 %) patients présentaient une PA légère, 280 (34,1 %) une PA modérée et 56 (6,8 %) une PA sévère ; 68 (8,3 %) patients avaient une PPDM-A, et ils étaient plus susceptibles d’être obèses (20,7 % contre 9,2 %, P = 0,005), présentant une hyperlipidémie et ayant tendance à avoir une stéatose hépatique non alcoolique combinée (NAFLD) ( 75 % contre 45,2 %, P < 0,001). Les taux de tabagisme étaient plus élevés chez les patients atteints de PPDM-A que chez ceux sans DM.

Tableau 1 Données démographiques et caractéristiques cliniques des patients.

Extraction de caractéristiques

La régression au lasso (régression logistique régularisée L1) peut être utilisée pour l’extraction de caractéristiques dans les modèles de classification. Nous avons effectué 1000 régressions au lasso aléatoirement perturbées pour extraire les poids de 38 caractéristiques cliniques. En hiérarchisant les poids moyens de ces 38 caractéristiques et en utilisant un seuil de 0,01, nous avons obtenu les neuf indicateurs les plus influents sur la classification du modèle (Fig. 1), dans l’ordre Admission glucose, obésité (IMC > 28 kg/m2), maladie cardiovasculaire (MCV), Âge, NAFLD, alanine transaminase (ALT), acide urique (UA), HDL-C < 1,03 mmol/l, Tabagisme. De plus, les indicateurs avec une plage résiduelle supérieure à 0 comprenaient plusieurs caractéristiques, la consommation d'alcool, la défaillance d'organes, la collecte aiguë de liquide péripancréatique (APFC), l'azote uréique du sang (BUN), la créatinine, l'hypertension, l'amylase, Ca. Les résultats montrent que les deux facteurs les plus influents dans la PPDM-A sont toujours la glycémie à l'admission et l'obésité. Ces deux indicateurs sont aussi ceux associés au diabète de type 2. Il suggère que le diabète de type 2 et le PPDM-A partagent des facteurs de risque communs.

Figure 1

Dépistage des principaux facteurs d’influence. Les valeurs moyennes des poids des caractéristiques ont été classées par 1000 régressions au lasso. Parmi ceux-ci, neuf caractéristiques avec un score d’importance de fonctionnalité> 0, 01 ont été sélectionnées comme gènes de base considérés comme associés à PPDM-A.

Performances de l’algorithme

Plusieurs algorithmes d’apprentissage automatique ont été utilisés pour construire les modèles de classification. Suivant la même approche, nous avons construit un modèle de classification basé sur les neuf principales caractéristiques. Nous avons validé les performances du modèle sur l’ensemble d’apprentissage à l’aide d’une validation croisée quintuple (Fig. 2A, B; Tableau supplémentaire 1). De plus, nous avons effectué une validation interne sur l’ensemble de formation (Fig. 2C, D; Tableau supplémentaire 2). Nous avons ensuite testé ces modèles dans des données de validation (Fig. 2E, F; Tableaux supplémentaires 3, 4). Les résultats ont montré que le meilleur modèle a été obtenu avec LR L1 (C = 1) au niveau moyen (AUC = 0,819, CA = 0,927, F1 = 0,912, Précision = 0,912, Rappel = 0,927 ; Fig. 2E, Tableau supplémentaire 3) . Pour la prédiction des événements positifs, LR L1 (C = 1) a également obtenu les meilleurs résultats (AUC = 0,819, CA = 0,927, F1 = 0,357, Précision = 0,625, Rappel = 0,250 ; Fig. 2F, Tableau supplémentaire 4). L’analyse précédente a montré que le modèle pronostique construit à l’aide des neuf principales caractéristiques avait le meilleur effet prédictif.

Figure 2
Figure 2

Performances du modèle. Une validation croisée quintuple a été utilisée pour évaluer les performances du modèle dans l’ensemble d’apprentissage. Des courbes ROC et des courbes d’étalonnage ont été utilisées pour comparer les forces et les faiblesses des modèles. (UN,B) Courbes d’andibration ROC des cinq modèles d’apprentissage automatique sur l’ensemble d’apprentissage à l’aide d’une validation croisée quintuple. (C,D) validation interne sur l’ensemble d’apprentissage. (E,F) Courbes d’andibration ROC des cinq modèles d’apprentissage automatique dans l’ensemble de test. À partir du tableau supplémentaire 4, nous pouvons constater que le modèle obtenu par régression logistique (régularisation L1) fonctionne mieux avec AUC = 0,819, F1 = 0,357 dans l’ensemble de validation.

Évaluation de l’interprétabilité des prédictions du modèle

Nous avons construit un nomogramme basé sur LR L1(C = 1) pour neuf caractéristiques. Il a été prédit que HDL-C <1, 03, CVD et ALT contribuaient négativement au PPDM-A (Fig. 3A). Pour mieux comprendre les caractéristiques qui ont le plus contribué aux résultats de prédiction du modèle, nous avons utilisé Sharply Values ​​pour évaluer l'importance des caractéristiques principales pour l'évaluation du modèle (Fig. 3B). Les facteurs qui ont le plus influencé les prédictions du modèle comprenaient le HDL-C28kg/m2, et Glycémie à l’admission. HDL-C28 = FAUX dans la prédiction des événements positifs était le contraire de l’IMC > 28 = VRAI. Cela suggère que l’obésité est également un facteur causal de la maladie.

figure 3
figure 3

Interprétation du modèle. Nous avons utilisé deux méthodes d’interprétation du modèle. (UN) Nomogramme. La tendance et l’ampleur de l’effet des neuf facteurs de base sur la prédiction des événements positifs peuvent être observées dans la figure. La glycémie à l’admission, l’IMC> 28, l’âge, la NAFLD, l’AU et le tabagisme sont les facteurs de risque de PPDM-A. En revanche, les maladies cardiovasculaires, ALT, HDL-C < 1,03 sont des facteurs prédits négatifs. (B) La valeur de Sharpley a été utilisée pour expliquer l’effet du modèle sur la prédiction. HDL-C28 et la glycémie à l’admission étaient les principaux facteurs affectant la prédiction. IMC > 28, Maladie cardiovasculaire, HDL-C < 1,03 et Tabagisme sont des variables logistiques, 0 étant FAUX et 1 étant VRAI.

Diagnostic personnalisé

Nous avons utilisé le modèle RL L1 (C = 1) construit avec neuf caractéristiques pour évaluer les principales influences sur les prédictions des six échantillons à l’aide de Sharp Value. Les résultats ont montré que la principale contribution à une prédiction optimiste pour l’échantillon 1 provenait de (IMC > 28 = 0) = FAUX, (HDL-C28 = 0) = FAUX, (HDL-C28 = 0) = FAUX, (HDL-C28kg/m2 était le principal facteur de risque pour cet échantillon (Fig. 4C). Plusieurs informations cliniques dans les échantillons 4, 5 et 6 ont moins contribué à la prédiction positive (Fig. 4D, E, F). La probabilité de prédire la présence de PPDM-A dans chacun de ces échantillons était inférieure à 0,13.

Figure 4
chiffre 4

Diagnostic personnalisé. Les facteurs de risque pour les trois échantillons prédits positifs et les trois échantillons négatifs de l’ensemble de prédiction ont été étudiés. (UN) Le patient 1 avait un IMC > 28 kg/m2 comme principal facteur de risque et une probabilité prédite de développer un diabète de 0,83. (B) Le patient 2 avait un IMC > 28 kg/m2, HDL-C > 1,03 mmol/l comme facteur principal et une probabilité prédite de développer un diabète de 0,74. (C) Le patient 3 avait un IMC > 28 kg/m2 comme principal facteur de risque et une probabilité prédite de développer un diabète de 0,89. (D,E,F) Le patient 4, le patient 5, le patient 6 n’ont aucun facteur contribuant de manière majeure à la prédiction d’un événement positif et tous ont une probabilité prédite de développer un diabète inférieure à 0,13. La contribution des facteurs de risque à ce patient peut être observée dans le graphique. Le rouge représente la contribution positive et le bleu représente la contribution négative.

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

ADVERTISEMENT