Nouvelles Du Monde

L’approche de Shopify pour tirer parti de l’intégration et du clustering récursifs pour améliorer l’explicabilité des données

L’approche de Shopify pour tirer parti de l’intégration et du clustering récursifs pour améliorer l’explicabilité des données

Shopify a récemment publié un blog technique sur certains de ses processus internes d’apprentissage automatique et sur la manière d’obtenir des informations plus exploitables en fonction des signaux de ses clients. L’un des principaux défis de toute entreprise en ligne est d’obtenir des informations exploitables à partir de ses données pour la prise de décision. Shopify partage sa méthodologie et son expérience pour résoudre ce problème en regroupant divers ensembles de données grâce à une méthode unique impliquant la réduction de dimensionnalité, la récursivité et l’apprentissage automatique supervisé. L’approche produit des résultats solides et fournit des informations et une meilleure explicabilité. Il aide les chercheurs utilisateurs et les data scientists à améliorer leur compréhension, à affiner leurs solutions et à itérer plus efficacement pour obtenir la solution finale. De plus, cette méthode comprend une couche d’explicabilité, facilitant la validation des résultats pour communiquer avec les parties prenantes. Le diagramme suivant montre cette méthode de haut niveau.

Sur la base du billet de blog, l’auteur a proposé une méthode contenant 4 étapes simples :

  • Rendre les données gérables.
  • Regroupez-le.
  • Comprenez-le (et prédisez-le).
  • Communiquez-le.
  • La première étape de ce processus consiste à trouver un moyen de visualiser les données pour mieux les gérer. Le principal défi est que, dans la pratique, nous devons gérer des données de grande dimension. Une approche pratique consiste à utiliser des techniques de réduction de dimension telles que l’analyse en composantes principales ou APC. Le principal défi de l’ACP est que, dans de nombreux cas, toutes les informations ne peuvent pas être présentées en 2 dimensions. L’auteur a suggéré d’utiliser la technique de pointe d’approximation et de projection de collecteur uniforme ou UMAP au lieu de PCA. La principale différence entre PCA et UMAP est que UMAP est la méthode de projection qui réserve la similarité locale et globale des points dans la dimension inférieure et qu’elle est non linéaire par rapport à PCA. Cela capturera les relations non linéaires entre les données. A titre d’exemple, l’auteur a montré la différence dans les résultats en utilisant le MNIST (Ensemble de données modifié de l’Institut national des normes et de la technologie). MNIST a 784 dimensions pour représenter les chiffres écrits de 0 à 9. Les figures suivantes montrent les différences.

    Lire aussi  Réponses et indices "Quordle" d'aujourd'hui pour le vendredi 14 juillet

    Une fois que nous avons visualisé les données et obtenu une première idée, nous devons créer des clusters significatifs. Comme mentionné dans l’article, ce clustering doit avoir les propriétés suivantes pour des raisons d’explicabilité :

  • Un point appartient à un cluster si le cluster existe.
  • Si vous avez besoin de paramètres pour votre clustering, rendez-les intuitifs.
  • Les clusters doivent être stables, même en cas de modification de l’ordre des données ou des conditions de départ
  • De nombreux algorithmes de clustering, tels que K-Moyennes et HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise), existent sur le terrain. HDBSCAN exploite une approche hiérarchique combinant les méthodes de clustering et DBSCAN pour produire des clusters plus robustes et significatifs. Des expérimentations approfondies menées chez Shopify ont démontré que HDBSCAN produit systématiquement des résultats plus significatifs et plus stables.

    Dans la poursuite d’une compréhension plus approfondie du comportement des clusters, une application récursive des techniques de clustering devient impérative. Ce processus itératif permet de mieux comprendre la dynamique complexe au sein des clusters. Par la suite, une fois qu’un nombre suffisant de clusters aura été établi, l’application de techniques supervisées, notamment de classification, deviendra viable. Méthodologies de classification établies, telles que XGBoostpeut être utilisé comme modèle un contre tous pour chaque cluster.

    Lire aussi  De meilleures informations sur le cerveau trouvées lorsque l'apprentissage automatique est associé à l'IRMf

    De plus, l’intégration de FORME sert à améliorer l’interprétabilité, en élucidant les principaux moteurs au sein de chaque cluster. Cette double approche, combinant HDBSCAN pour le clustering initial et la classification ultérieure via XGBoost, complétée par SHAP pour l’explicabilité, forme une méthodologie complète pour obtenir des informations approfondies sur le comportement de divers clusters.

    Dans la phase finale, il est nécessaire de communiquer les résultats avec le groupe de science des données et d’autres parties prenantes et de répéter le processus pour parvenir à la solution finale si nécessaire.

    Une méthodologie similaire a également été utilisée avec succès dans d’autres disciplines comme détection d’anomalies dans les données de santé.

    De nombreux ingénieurs en apprentissage automatique ont trouvé ce travail passionnant. Comme l’a commenté l’un d’eux sur LinkedIn post de ce travail :

    Umap et Shap changent véritablement la donne et constituent des éléments fondamentaux des flux de travail d’analyse avancée.

    2024-01-19 05:17:05
    1705632418


    #Lapproche #Shopify #pour #tirer #parti #lintégration #clustering #récursifs #pour #améliorer #lexplicabilité #des #données

    Facebook
    Twitter
    LinkedIn
    Pinterest

    Leave a Comment

    This site uses Akismet to reduce spam. Learn how your comment data is processed.

    Un F16 s’est écrasé à Halkidiki, le pilote est sain et sauf

    F-16 ©Eurokinissi ” )+(“arrêter\”> “).length); //déboguer contenttts2=document.querySelector(“.entry-content.single-post-content”).innerHTML.substring( 0, document.querySelector(“.entry-content.single-post-content “).innerHTML.indexOf( “” )); contenttts2=contenttts2.substring(contenttts2.indexOf( “fa-stop\”> ” )+(“arrêter\”> “).length);

    ADVERTISEMENT