Nouvelles Du Monde

Meta AI publie l’ensemble de données HM3D-Sem, le plus grand ensemble de données d’espaces intérieurs 3D annotés sémantiquement

Meta AI publie l’ensemble de données HM3D-Sem, le plus grand ensemble de données d’espaces intérieurs 3D annotés sémantiquement

La mise à l’échelle a gagné en importance à la suite des récentes percées technologiques. De grands réseaux de neurones ont été formés dans des environnements 3D à l’aide d’un apprentissage par renforcement profond sur des milliards d’étapes d’expérience, ce qui a contribué à faire progresser le développement d’entités intelligentes incarnées capables d’accomplir des tâches axées sur des objectifs. Pour garantir que les réseaux fonctionnent à une échelle aussi massive sans tracas, les systèmes RL doivent s’adapter à plusieurs ordinateurs et faire bon usage des ressources disponibles, telles que les GPU, tout en maintenant un apprentissage efficace par échantillon. L’une de ces méthodes prometteuses pour atteindre cette échelle est la stratégie par lots. Ces méthodes collectent l’expérience de plusieurs environnements différents à l’aide de la stratégie et la mettent à jour avec l’expérience cumulée.

En règle générale, l’apprentissage par renforcement sur stratégie RL est divisé en classes synchrone (SyncOnRL) et asynchrone (AsyncOnRL). Tout d’abord, la stratégie est appliquée au lot complet jusqu’à ce que T étapes aient été collectées à partir de tous les N environnements. Il s’agit du premier des deux points de synchronisation dans SyncOnRL. La politique mise à jour est basée sur ce lot d’expériences en forme de (T, N). Cependant, le débit est diminué par la synchronisation car le système doit attendre longtemps que l’environnement le plus lent se termine. L’effet traînard est un terme fréquemment utilisé pour décrire cet événement. En éliminant ces emplacements de synchronisation, AsyncOnRL réduit l’effet de traînée et augmente le débit. Dans un article récemment publié par des chercheurs de Meta AI et du Georgia Institute of Technology, l’équipe a suggéré le déploiement de l’expérience variable (VER). Cette méthode combine les avantages de SyncOnRL et AsyncOnRL tout en brouillant leurs distinctions. Semblable à AsyncOnRL, VER n’utilise pas de points de synchronisation ; à la place, il calcule les étapes d’action et les environnements suivants, et met à jour la politique dès que possible. VER met à jour la politique après avoir acquis de l’expérience avec la politique actuelle, tout comme le fait SyncOnRL.

Lire aussi  Célébrer l'équipe de tennis masculine Tar Heel 2022

Deux idées importantes ont servi de base à VER. La première était qu’AsyncOnRL réduit l’effet retardataire en rassemblant implicitement une quantité différente d’expérience de chaque environnement (plus d’environnements rapides à simuler et moins d’environnements lents). La deuxième constatation est que la longueur du déploiement est constante pour SyncOnRL et AsyncOnRL. Bien qu’une longueur de déploiement définie puisse faciliter la mise en œuvre, selon les chercheurs, elle n’est pas nécessaire pour RL. Ces deux constats cruciaux ont conduit au développement de déploiements à expérience variable (VER) ou à la pratique consistant à regrouper des déploiements avec un nombre variable d’étapes. Selon le rythme de sa simulation, VER modifie la durée de déploiement pour chaque environnement. Le résultat est un système RL qui annule l’effet retardataire et conserve l’efficacité de l’échantillon en apprenant à partir des données sur la politique. VER se concentre sur l’utilisation efficace d’un seul GPU. Les chercheurs ont associé VER à la technique distribuée décentralisée présentée dans [Wijmans et al., 2020] pour permettre une mise à l’échelle efficace sur de nombreux GPU.

Lire aussi  Le président tadjik Emomali Rahmon envoie ses condoléances au président chinois Xi Jinping

Après avoir mené plusieurs évaluations expérimentales, les chercheurs ont conclu que le VER entraînait des accélérations considérables et cohérentes dans un large éventail de tâches de navigation et de manipulation mobile incarnées dans des paramètres de simulation 3D photoréalistes. En particulier, VER est 60 à 100 % plus rapide (une accélération de 1,6 à 2 fois) que DD-PPO, l’état actuel de l’art pour SyncOnRL distribué, avec une efficacité d’échantillonnage équivalente pour la navigation PointGoal et la navigation ObjectGoal dans Habitat 1.0. Par rapport à DD-PPO, Habitat 2.0 VER est 150 % plus rapide (accélération 2,5x) sur 1 GPU et 170 % plus rapide (accélération 2,7x) sur 8 GPU pour les tâches de manipulation mobile (ouvrir un réfrigérateur/armoire, prendre/placer des objets). Avec une efficacité d’échantillonnage améliorée, VER est 70 % plus rapide (1,7 fois plus rapide) sur 8 GPU que SampleFactory, l’AsyncOnRL le plus avancé actuellement disponible.

L’équipe a profité de ces accélérations pour former des capacités enchaînées pour les tâches de réarrangement de GeometricGoal dans le Home Assistant Benchmark (HAB). Ils ont découvert une apparence surprenante de navigation dans les capacités qui ne nécessitent aucune navigation. Le talent Pick implique spécifiquement un robot qui choisit une chose sur une table. Le robot n’a jamais été obligé de naviguer pendant l’entraînement car il était toujours engendré près de la table. Le robot, cependant, apprend à explorer puis à choisir un objet dans un environnement inconnu avec 50% de réussite, affichant une généralisation hors distribution étonnamment élevée, selon les chercheurs, en supposant que le mouvement de base est inclus dans l’espace d’action. VER peut être extrêmement utile lors de la recherche de réorganisation. Lorsque l’accès aux actions de navigation est fourni, il aide à identifier l’apparence de la navigation dans les politiques qui ne nécessitent apparemment pas de navigation. De forts progrès sont ainsi réalisés sur Tidy House (+30% de succès), mais cela démontre également qu’il n’est peut-être pas toujours préférable d’éliminer les “actions inutiles”.

This Article is written as a research summary article by Marktechpost Staff based on the research paper 'VER: Scaling On-Policy RL Leads to the Emergence of Navigation in Embodied Rearrangement'. All Credit For This Research Goes To Researchers on This Project. Check out the paper, github link and project.

Please Don't Forget To Join Our ML Subreddit


Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

ADVERTISEMENT