L’approche de Shopify pour tirer parti de l’intégration et du clustering récursifs pour améliorer l’explicabilité des données

Home » Sciences et technologies » L’approche de Shopify pour tirer parti de l’intégration et du clustering récursifs pour améliorer l’explicabilité des données

Shopify a récemment publié un blog technique sur certains de ses processus internes d’apprentissage automatique et sur la manière d’obtenir des informations plus exploitables en fonction des signaux de ses clients. L’un des principaux défis de toute entreprise en ligne est d’obtenir des informations exploitables à partir de ses données pour la prise de décision. Shopify partage sa méthodologie et son expérience pour résoudre ce problème en regroupant divers ensembles de données grâce à une méthode unique impliquant la réduction de dimensionnalité, la récursivité et l’apprentissage automatique supervisé. L’approche produit des résultats solides et fournit des informations et une meilleure explicabilité. Il aide les chercheurs utilisateurs et les data scientists à améliorer leur compréhension, à affiner leurs solutions et à itérer plus efficacement pour obtenir la solution finale. De plus, cette méthode comprend une couche d’explicabilité, facilitant la validation des résultats pour communiquer avec les parties prenantes. Le diagramme suivant montre cette méthode de haut niveau.

Sur la base du billet de blog, l’auteur a proposé une méthode contenant 4 étapes simples :

Rendre les données gérables.
Regroupez-le.
Comprenez-le (et prédisez-le).
Communiquez-le.

La première étape de ce processus consiste à trouver un moyen de visualiser les données pour mieux les gérer. Le principal défi est que, dans la pratique, nous devons gérer des données de grande dimension. Une approche pratique consiste à utiliser des techniques de réduction de dimension telles que l’analyse en composantes principales ou APC. Le principal défi de l’ACP est que, dans de nombreux cas, toutes les informations ne peuvent pas être présentées en 2 dimensions. L’auteur a suggéré d’utiliser la technique de pointe d’approximation et de projection de collecteur uniforme ou UMAP au lieu de PCA. La principale différence entre PCA et UMAP est que UMAP est la méthode de projection qui réserve la similarité locale et globale des points dans la dimension inférieure et qu’elle est non linéaire par rapport à PCA. Cela capturera les relations non linéaires entre les données. A titre d’exemple, l’auteur a montré la différence dans les résultats en utilisant le MNIST (Ensemble de données modifié de l’Institut national des normes et de la technologie). MNIST a 784 dimensions pour représenter les chiffres écrits de 0 à 9. Les figures suivantes montrent les différences.

Une fois que nous avons visualisé les données et obtenu une première idée, nous devons créer des clusters significatifs. Comme mentionné dans l’article, ce clustering doit avoir les propriétés suivantes pour des raisons d’explicabilité :

Un point appartient à un cluster si le cluster existe.
Si vous avez besoin de paramètres pour votre clustering, rendez-les intuitifs.
Les clusters doivent être stables, même en cas de modification de l’ordre des données ou des conditions de départ

De nombreux algorithmes de clustering, tels que K-Moyennes et HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise), existent sur le terrain. HDBSCAN exploite une approche hiérarchique combinant les méthodes de clustering et DBSCAN pour produire des clusters plus robustes et significatifs. Des expérimentations approfondies menées chez Shopify ont démontré que HDBSCAN produit systématiquement des résultats plus significatifs et plus stables.

Dans la poursuite d’une compréhension plus approfondie du comportement des clusters, une application récursive des techniques de clustering devient impérative. Ce processus itératif permet de mieux comprendre la dynamique complexe au sein des clusters. Par la suite, une fois qu’un nombre suffisant de clusters aura été établi, l’application de techniques supervisées, notamment de classification, deviendra viable. Méthodologies de classification établies, telles que XGBoostpeut être utilisé comme modèle un contre tous pour chaque cluster.

De plus, l’intégration de FORME sert à améliorer l’interprétabilité, en élucidant les principaux moteurs au sein de chaque cluster. Cette double approche, combinant HDBSCAN pour le clustering initial et la classification ultérieure via XGBoost, complétée par SHAP pour l’explicabilité, forme une méthodologie complète pour obtenir des informations approfondies sur le comportement de divers clusters.

Dans la phase finale, il est nécessaire de communiquer les résultats avec le groupe de science des données et d’autres parties prenantes et de répéter le processus pour parvenir à la solution finale si nécessaire.

Une méthodologie similaire a également été utilisée avec succès dans d’autres disciplines comme détection d’anomalies dans les données de santé.

De nombreux ingénieurs en apprentissage automatique ont trouvé ce travail passionnant. Comme l’a commenté l’un d’eux sur LinkedIn post de ce travail :

Umap et Shap changent véritablement la donne et constituent des éléments fondamentaux des flux de travail d’analyse avancée.

2024-01-19 05:17:05
1705632418

#Lapproche #Shopify #pour #tirer #parti #lintégration #clustering #récursifs #pour #améliorer #lexplicabilité #des #données

Analyse des données, apprentissage automatique, Big Data, clustering Shopify, IA, ML et ingénierie des données

Un F16 s’est écrasé à Halkidiki, le pilote est sain et sauf

F-16 ©Eurokinissi ” )+(“arrêter\”> “).length); //déboguer contenttts2=document.querySelector(“.entry-content.single-post-content”).innerHTML.substring( 0, document.querySelector(“.entry-content.single-post-content “).innerHTML.indexOf( “” )); contenttts2=contenttts2.substring(contenttts2.indexOf( “fa-stop\”> ” )+(“arrêter\”> “).length);

Richard Linklater : « Le sexe est la dernière passion dans laquelle on se met vraiment en danger » | Nouvelles de Catalogne

2024-04-26 21:12:36 Gary Johnson est philosophe et professeur d’université à la Nouvelle-Orléans. Un personnage timide qui combine

Nouvelles Du Monde

L’approche de Shopify pour tirer parti de l’intégration et du clustering récursifs pour améliorer l’explicabilité des données

Related

Leave a Comment Cancel Reply

Un F16 s’est écrasé à Halkidiki, le pilote est sain et sauf

Richard Linklater : « Le sexe est la dernière passion dans laquelle on se met vraiment en danger » | Nouvelles de Catalogne

Un destroyer britannique tue le premier missile de la Royal Navy depuis la guerre du Golfe

RECENT POSTS

7 conseils efficaces pour communiquer avec les gens et établir des contacts utiles

Ces stars qui ne seront pas à la Coupe du Monde

ADVERTISEMENT

Nouvelles Du Monde

L’approche de Shopify pour tirer parti de l’intégration et du clustering récursifs pour améliorer l’explicabilité des données

Share this:

Related

Leave a Comment Cancel Reply

Un F16 s’est écrasé à Halkidiki, le pilote est sain et sauf

Share this:

Richard Linklater : « Le sexe est la dernière passion dans laquelle on se met vraiment en danger » | Nouvelles de Catalogne

Share this:

Aaron Sorkin lance une pseudo-suite sur les réseaux sociaux vers le 6 janvier

Share this:

Un destroyer britannique tue le premier missile de la Royal Navy depuis la guerre du Golfe

Share this:

RECENT POSTS

7 conseils efficaces pour communiquer avec les gens et établir des contacts utiles

Ces stars qui ne seront pas à la Coupe du Monde

ADVERTISEMENT

Tags