Cohorte d’étude et caractéristiques de base
Entre le 1er octobre 2016 et le 31 octobre 2021, 3477 admissions pour PA ont été dépistées dans le système d’information hospitalier (SIH). Après avoir utilisé les critères d’exclusion décrits (Fig. 1 supplémentaire), 820 patients atteints de PA sans diabète connu ont été inclus dans notre étude. Parmi ceux-ci, les deux tiers (n = 574) ont été affectés au hasard à l’ensemble d’apprentissage, le tiers restant (n = 246) étant affecté à une cohorte de validation. Le tableau 1 montre les caractéristiques de base des patients. L’âge médian était de 50 (38, 63) ans. La proportion d’hommes était de 61,3 % (n = 503). Les voies biliaires étaient la cause la plus fréquente de PA. 484 (59 %) patients présentaient une PA légère, 280 (34,1 %) une PA modérée et 56 (6,8 %) une PA sévère ; 68 (8,3 %) patients avaient une PPDM-A, et ils étaient plus susceptibles d’être obèses (20,7 % contre 9,2 %, P = 0,005), présentant une hyperlipidémie et ayant tendance à avoir une stéatose hépatique non alcoolique combinée (NAFLD) ( 75 % contre 45,2 %, P < 0,001). Les taux de tabagisme étaient plus élevés chez les patients atteints de PPDM-A que chez ceux sans DM.
Extraction de caractéristiques
La régression au lasso (régression logistique régularisée L1) peut être utilisée pour l’extraction de caractéristiques dans les modèles de classification. Nous avons effectué 1000 régressions au lasso aléatoirement perturbées pour extraire les poids de 38 caractéristiques cliniques. En hiérarchisant les poids moyens de ces 38 caractéristiques et en utilisant un seuil de 0,01, nous avons obtenu les neuf indicateurs les plus influents sur la classification du modèle (Fig. 1), dans l’ordre Admission glucose, obésité (IMC > 28 kg/m2), maladie cardiovasculaire (MCV), Âge, NAFLD, alanine transaminase (ALT), acide urique (UA), HDL-C < 1,03 mmol/l, Tabagisme. De plus, les indicateurs avec une plage résiduelle supérieure à 0 comprenaient plusieurs caractéristiques, la consommation d'alcool, la défaillance d'organes, la collecte aiguë de liquide péripancréatique (APFC), l'azote uréique du sang (BUN), la créatinine, l'hypertension, l'amylase, Ca. Les résultats montrent que les deux facteurs les plus influents dans la PPDM-A sont toujours la glycémie à l'admission et l'obésité. Ces deux indicateurs sont aussi ceux associés au diabète de type 2. Il suggère que le diabète de type 2 et le PPDM-A partagent des facteurs de risque communs.
Performances de l’algorithme
Plusieurs algorithmes d’apprentissage automatique ont été utilisés pour construire les modèles de classification. Suivant la même approche, nous avons construit un modèle de classification basé sur les neuf principales caractéristiques. Nous avons validé les performances du modèle sur l’ensemble d’apprentissage à l’aide d’une validation croisée quintuple (Fig. 2A, B; Tableau supplémentaire 1). De plus, nous avons effectué une validation interne sur l’ensemble de formation (Fig. 2C, D; Tableau supplémentaire 2). Nous avons ensuite testé ces modèles dans des données de validation (Fig. 2E, F; Tableaux supplémentaires 3, 4). Les résultats ont montré que le meilleur modèle a été obtenu avec LR L1 (C = 1) au niveau moyen (AUC = 0,819, CA = 0,927, F1 = 0,912, Précision = 0,912, Rappel = 0,927 ; Fig. 2E, Tableau supplémentaire 3) . Pour la prédiction des événements positifs, LR L1 (C = 1) a également obtenu les meilleurs résultats (AUC = 0,819, CA = 0,927, F1 = 0,357, Précision = 0,625, Rappel = 0,250 ; Fig. 2F, Tableau supplémentaire 4). L’analyse précédente a montré que le modèle pronostique construit à l’aide des neuf principales caractéristiques avait le meilleur effet prédictif.
Évaluation de l’interprétabilité des prédictions du modèle
Nous avons construit un nomogramme basé sur LR L1(C = 1) pour neuf caractéristiques. Il a été prédit que HDL-C <1, 03, CVD et ALT contribuaient négativement au PPDM-A (Fig. 3A). Pour mieux comprendre les caractéristiques qui ont le plus contribué aux résultats de prédiction du modèle, nous avons utilisé Sharply Values pour évaluer l'importance des caractéristiques principales pour l'évaluation du modèle (Fig. 3B). Les facteurs qui ont le plus influencé les prédictions du modèle comprenaient le HDL-C28kg/m2, et Glycémie à l’admission. HDL-C28 = FAUX dans la prédiction des événements positifs était le contraire de l’IMC > 28 = VRAI. Cela suggère que l’obésité est également un facteur causal de la maladie.
Diagnostic personnalisé
Nous avons utilisé le modèle RL L1 (C = 1) construit avec neuf caractéristiques pour évaluer les principales influences sur les prédictions des six échantillons à l’aide de Sharp Value. Les résultats ont montré que la principale contribution à une prédiction optimiste pour l’échantillon 1 provenait de (IMC > 28 = 0) = FAUX, (HDL-C28 = 0) = FAUX, (HDL-C28 = 0) = FAUX, (HDL-C28kg/m2 était le principal facteur de risque pour cet échantillon (Fig. 4C). Plusieurs informations cliniques dans les échantillons 4, 5 et 6 ont moins contribué à la prédiction positive (Fig. 4D, E, F). La probabilité de prédire la présence de PPDM-A dans chacun de ces échantillons était inférieure à 0,13.