Nouvelles Du Monde

Volumétrie hépatique préopératoire entièrement automatisée intégrant la localisation anatomique de la veine hépatique centrale

Volumétrie hépatique préopératoire entièrement automatisée intégrant la localisation anatomique de la veine hépatique centrale

Déclaration d’éthique

L’étude a été approuvée par le comité d’examen institutionnel de l’hôpital universitaire d’Essen (numéro d’approbation : 19-8804-BO). Le comité d’éthique a renoncé au consentement éclairé écrit en raison du caractère rétrospectif de l’étude. Toutes les méthodes et procédures ont été réalisées conformément aux directives et réglementations en vigueur.

Base de données

Dans ce travail, un ensemble de données composé de 100 tomodensitogrammes abdominaux / hépatiques (53 femmes, 47 hommes) avec une épaisseur de tranche de 5 mm a été collecté à l’Université de médecine d’Essen. Pour la validation, un ensemble de données externes composé de 30 tomodensitogrammes (12 femmes, 18 hommes) avec une épaisseur de tranche de 1,5 mm a été collecté à l’hôpital universitaire Medipol d’Istanbul, en Turquie. Les données de validation ont été rééchantillonnées à une épaisseur de tranche de 5 mm pour un espacement unifié des voxels. Tous les tomodensitogrammes ont été réalisés avec des systèmes de tomodensitométrie à plusieurs rangées de détecteurs, principalement avec des systèmes à 16 rangées de détecteurs ou plus. L’imagerie en phase veineuse a été réalisée 70 à 80 s après l’administration intraveineuse d’un produit de contraste, avec une tension médiane du tube de 100 kVp allant de 90 à 120 kVp. Veuillez vous référer au supplément pour des informations détaillées sur les paramètres du scanner. L’ensemble de données d’entraînement a été annoté par un seul lecteur avec des segments de lobe droit et gauche, tandis que l’ensemble de données de test a été annoté par trois lecteurs différents. De plus, une norme de référence (SoR) a été dérivée des trois lecteurs par vote à la majorité. Les voxels sans annotation majoritaire ont été marqués d’une étiquette ignorée et donc ignorés dans les analyses ultérieures.

Conception de réseau

Un choix d’architecture de réseau populaire pour la segmentation d’images médicales est le U-Net5, particulièrement promu pour être bon pour l’optimisation avec très peu d’exemples. Peu de temps après, une version modifiée pour l’imagerie 3D, à savoir U-Net3D6, a été présenté, afin d’exploiter le contexte spatial des données volumétriques. Cependant, U-Net et leurs variantes simples souffrent de certains problèmes de base concernant le flux de traitement des caractéristiques et, par conséquent, les formulations les plus récentes de ces réseaux utilisent des connexions de saut plus complexes au lieu de simples connexions de saut d’identité entre l’encodeur et le décodeur.

Lire aussi  Plusieurs blessés après qu'une voiture s'est écrasée dans une école de Londres

Dans cet article, nous avons adopté l’architecture de l’U-Net multi-résolutionsept de l’imagerie 2D à l’imagerie 3D en remplaçant toutes les convolutions 2D et les couches de regroupement maximal par leurs homologues 3D respectifs. De plus, étant donné que la mémoire GPU est la principale limitation lors de l’utilisation de données 3D, la normalisation par lots8 les calques ont été remplacés par la normalisation d’instance9 calques afin de pouvoir utiliser des lots avec un seul exemple. L’architecture complète ainsi que tous les blocs de construction et les couches utilisées sont visualisés sur la Fig. 1.

Figure 1

Architecture de l’U-Net multi-résolution pour la classification des lobes du foie avec régression auxiliaire tronquée Signed Distance Field (t-SDF).

En bref, l’architecture du réseau implique deux changements par rapport à l’architecture U-Net standard. Premièrement, au lieu de deux couches convolutionnelles successives avec normalisation et activation comme dans les réseaux VGGdix, plusieurs champs récepteurs sont calculés en factorisant une convolution 7 × 7 × 7 en trois convolutions successives 3 × 3 × 3 et en concaténant les résultats intermédiaires le long de l’axe des canaux, suivi d’une couche de normalisation et d’activation. En plus de la convolution factorisée, une simple convolution 1 × 1 × 1 est utilisée comme chemin résiduel et les deux résultats sont ajoutés comme dans les réseaux résiduels (Res-Nets)11. La deuxième modification concerne les sauts de liaison entre le codeur et le décodeur. Au lieu d’une simple fonction d’identité, plusieurs blocs résiduels sont utilisés afin de combler ce que l’on appelle le «trou sémantique».

Pour la couche de classification finale, la fonction d’activation softmax a été choisie. De plus, nous avons introduit un classificateur auxiliaire pour résoudre une tâche de régression tronquée Signed Distance Field (t-SDF) 12, qui sera expliqué plus en détail dans la section suivante. La fonction de perte finale pour l’optimisation consiste en une combinaison pondérée d’une perte d’entropie croisée catégorielle et d’une perte de dés souple généralisée13,14similaire à Isensee et al. 13ainsi qu’une perte L1 pour la régression t-SDF.

Lire aussi  Saint-Pétersbourg prolonge la date limite pour les propositions de Tropicana Field à la demande de Rays

Prétraitement

Toutes les images CT ont un nombre variable de tranches et ont été rééchantillonnées à une résolution axiale de 256 × 256 afin de réduire la charge de calcul et la quantité de mémoire GPU requise. Les images CT sont stockées par défaut en unités Hounsfield (HU), une mesure standardisée de la densité de voxel. Pour l’entrée du modèle, les valeurs HU ont été remises à l’échelle et coupées à [− 1, 1] en utilisant trois fenêtres HU différentes. Un exemple d’image RVB composite est illustré à la Fig. 2. Théoriquement, une seule fenêtre HU comprenant toutes les informations disponibles devrait être suffisante. Cependant, il a été observé empiriquement que l’utilisation de plusieurs fenêtres conduisait à une meilleure convergence, en particulier avec un entraînement de précision mixte.

Figure 2
Figure 2

Visualisation des entrées du réseau avec plusieurs fenêtres Hounsfield appliquées. WC = Centre de la fenêtre, WW = Largeur de la fenêtre. De gauche à droite : toutes les unités Hounsfield dans les données du scanner 12 bits, la fenêtre des tissus mous abdominaux, la fenêtre des tissus hépatiques et l’image RVB composite.

Au cours de la formation, les images CT ont été traitées ultérieurement en utilisant un pipeline d’augmentation de données aléatoires. Étant donné que l’ensemble de données disponible est plutôt petit, les augmentations peuvent aider à former de meilleurs réseaux de généralisation. Tout d’abord, des rotations aléatoires entre − 10° et 10° ont été appliquées, ce qui imite les mouvements rotatifs mineurs du patient. Deuxièmement, des augmentations d’échelle indépendantes de l’axe dans la plage de 80 à 120 % ont été appliquées. Troisièmement, les images CT rééchantillonnées ont été recadrées au hasard à 32 × 128 × 128 voxels. Cela peut être interprété comme un échantillonnage de perte et oblige également le réseau à apprendre des caractéristiques plus sensibles à l’espace.

Pour la régression t-SDF, les étiquettes multi-classes de vérité terrain doivent être converties en cartes de distance. Une implémentation Python rapide de la transformée de distance euclidienne (EDT) peut être trouvée sur https://github.com/seung-lab/euclidean-distance-transform-3d, qui est même compatible avec les données 3D, les annotations multi-étiquettes et l’espacement anisotrope des voxels. Comme visualisé sur la Fig. 3, les EDT signés des deux étiquettes de classe sont calculés et dans la dernière colonne, la différence entre les limites de classification dures et la régression t-SDF est visualisée. Normalement, un EDT ne calcule que la distance à l’intérieur d’une étiquette jusqu’au pixel de bordure le plus proche. En utilisant la bibliothèque mentionnée ci-dessus pour le calcul de distance multi-étiquettes, le masque d’étiquette de classe binaire est décalé d’un, de sorte que les pixels d’arrière-plan aient une valeur de 1 et les pixels d’avant-plan aient une valeur de 2. L’EDT signé peut alors être calculé efficacement en utilisant le opération de masquage pour les régions avec les valeurs 1 et 2. Les distances sont par défaut illimitées, mais la régression de valeur illimitée ne fonctionne pas bien avec le champ de réception limité des CNN. Par conséquent, les distances sont écrêtées à [− 25, 25] mm au pixel de bordure le plus proche, puis redimensionné à [− 1, 1].

figure 3
figure 3

Une segmentation multi-classes convertie en un champ de distance signé tronqué (t-SDF) pour une tâche de régression auxiliaire. L’image de droite montre la différence entre la classification et la limite de régression. Pour la régression t-SDF, le réseau est obligé d’en savoir plus sur le contexte spatial.

Optimisation

En tant qu’optimiseur, Adam15 avec un taux d’apprentissage constant de 0,0001 et une régularisation découplée de la décroissance du poids16 avec 0,0001 a été choisi. La formation du modèle a été effectuée à l’aide d’un schéma de validation croisée quintuple, produisant ainsi cinq estimations pour chaque configuration de modèle et la prise en charge de l’ensemble de modèles de fusion tardive. Les réseaux ont été formés avec une taille de lot de 1 pour 500 époques chacun (ou 40 000 étapes) et ont été évalués toutes les 10 époques (ou 800 étapes) pour surveiller les coefficients de Sørensen-Dice sur les divisions de validation respectives. Les poids du modèle ont été enregistrés si un meilleur coefficient moyen de Sørensen-Dice a été trouvé sur le pli de validation croisée respectif.

Lire aussi  Desus et Mero : pourquoi ils se sont séparés et pourquoi c'est si blessant

Comme mentionné précédemment, les images CT ont un nombre variable de tranches et pendant la formation, une récolte de 32 × 128 × 128 voxels est échantillonnée. Cependant, pour calculer la segmentation complète sur un scanner abdominal de taille variable, une approche de fenêtre glissante est utilisée. L’approche de la fenêtre glissante échantillonne des cultures de 32 × 256 × 256 voxels avec un chevauchement de 75% le long de l’axe z. Afin de stabiliser les prédictions aux bords des cultures, un schéma de pondération est utilisé pour l’agrégation des cartes de probabilité. Ainsi, un poids total est donné aux 16 tranches centrales et un poids interpolé à près de zéro pour 8 tranches de chaque côté.

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

ADVERTISEMENT