Nouvelles Du Monde

Transfert guidé du modèle linguistique vers le réel

2024-05-03 20:12:10

DrEureka | Transfert guidé du modèle linguistique vers le réel

1UPenn ; 2NVIDIA ; 3UTAustin ; *Contribution égale

Auteurs correspondants : [email protected], [email protected]

Abstrait

Le transfert des politiques apprises en simulation vers le monde réel est une stratégie prometteuse pour acquérir des compétences robotiques à grande échelle. Cependant, les approches de simulation à réalité reposent généralement sur la conception et le réglage manuels de la fonction de récompense de tâche ainsi que sur les paramètres physiques de simulation, ce qui rend le processus lent et exigeant en main-d’œuvre humaine. Dans cet article, nous étudions l’utilisation de grands modèles linguistiques (LLM) pour automatiser et accélérer la conception de la simulation au réel. Notre approche de simulation à réalité guidée par LLM ne nécessite que la simulation physique pour la tâche cible et construit automatiquement des fonctions de récompense et des distributions de randomisation de domaine appropriées pour prendre en charge le transfert dans le monde réel. Nous démontrons d’abord que notre approche peut découvrir des configurations sim-to-real qui sont compétitives avec celles existantes conçues par l’homme sur les tâches de \réfutation{locomotion quadrupède et de manipulation adroite}. Ensuite, nous montrons que notre approche est capable de résoudre de nouvelles tâches robotiques, telles que l’équilibre des quadrupèdes et la marche sur un ballon de yoga, sans conception manuelle itérative.

Composants DrEureka

Aperçu. DrEureka prend la tâche et les instructions de sécurité, ainsi que le code source de l’environnement, et exécute Eureka pour générer une fonction et une politique de récompense régularisées. Ensuite, il teste la politique dans différentes conditions de simulation pour construire un a priori physique sensible aux récompenses, qui est fourni au LLM pour générer un ensemble de paramètres de randomisation de domaine (DR). Enfin, à l’aide des paramètres synthétisés de récompense et de DR, il forme des politiques pour un déploiement dans le monde réel.

Lire aussi  Jour de pointe à Schiphol au début des vacances de mai : 80 000 passagers | Actualités RTL

Points forts de l’expérience

Dans cette section, nous présentons les principaux résultats qualitatifs de nos expériences, mettant en évidence la robustesse des politiques DrEureka dans la tâche réelle de marche avec balle de yoga, ainsi que les meilleurs résultats DrEureka pour toutes nos tâches de référence. Des expériences quantitatives détaillées et des comparaisons peuvent être trouvées dans le document. Toutes les vidéos sont lues à une vitesse 1x.

Vidéo de déploiement non coupée de 5 minutes de DrEureka

Galerie du globe ambulant DrEureka

La politique de DrEureka fait preuve d’une robustesse impressionnante dans le monde réel, équilibrant et marchant habilement au sommet d’un ballon de yoga sous divers changements et perturbations des conditions de terrain réelles et incontrôlées.

Nous avons également essayé de botter ou de dégonfler le ballon ; La politique de DrEureka est robuste face à ces perturbations et peut s’en remettre !

DrEureka en équilibre sur un ballon dégonflé

Récompenses DrEureka, paramètres DR et politiques

Nous évaluons DrEureka sur 3 tâches : la marche sur le globe à quatre pattes, la locomotion à quatre pattes et la rotation adroite du cube. Dans cette démo, nous visualisons la meilleure récompense DrEureka et les paramètres DR non modifiés pour chaque tâche et visualisons la politique déployée dans l’environnement de simulation de formation ainsi que dans l’environnement du monde réel.

Lire aussi  Attention au day trading - Gary Vaynerchuk

Sélectionnez une image ci-dessus :

Réponses DrEureka affichées dans le bloc de code.

Comparaisons qualitatives

Nous avons mené une étude systématique sur la tâche de référence de locomotion quadrupède. Nous présentons ici plusieurs résultats qualitatifs. Voir le document complet pour plus de détails.

Robustesse du terrain. Concernant la tâche de locomotion quadrupède, nous évaluons également systématiquement les politiques DrEureka sur plusieurs terrains du monde réel et constatons qu’elles restent robustes et surpassent les politiques formées à l’aide de configurations de récompense et de DR conçues par l’homme.

L’environnement par défaut ainsi que des environnements réels supplémentaires pour tester la robustesse de DrEureka pour la locomotion quadrupède. DrEureka fonctionne de manière cohérente sur différents terrains et conserve des avantages par rapport à Human-Designed.

Consignes de sécurité DrEureka. Le sous-programme de conception de récompense LLM de DrEureka améliore Eureka en incorporant des instructions de sécurité. Nous pensons que cela est essentiel pour générer des fonctions de récompense suffisamment sûres pour être déployées dans le monde réel.

Lire aussi  Le coin trouble de la dette chinoise fait face à une crise de financement: Credit Weekly

DrEureka Reward-Aware Physics Prior. Grâce à des études approfondies sur l’ablation, nous constatons que l’utilisation de la politique initiale d’Eureka pour générer un a priori physique sensible aux récompenses est cruciale pour le succès de DrEureka. puis l’utilisation de LLM pour échantillonner les paramètres DR est essentielle pour obtenir les meilleures performances du monde réel.

Vidéos d’échec et limitations

Enfin, nous montrons plusieurs occasions où le robot tombe du ballon. Il existe de nombreuses pistes pour améliorer davantage DrEureka. Par exemple, les politiques DrEureka sont actuellement entièrement formées à la simulation, mais l’utilisation d’un échec d’exécution dans le monde réel comme retour d’information peut constituer un moyen efficace pour les LLM de déterminer la meilleure façon d’ajuster la simulation au réel au cours des itérations successives. De plus, toutes les tâches et politiques de notre travail fonctionnent uniquement à partir des entrées proprioceptives du robot, et l’intégration de capteurs de vision ou d’autres capteurs peut encore améliorer les performances des politiques et la boucle de rétroaction LLM.

BibTeX

@article{ma2024dreureka, title = {DrEureka : Transfert guidé du modèle linguistique vers le réel}, auteur = {Yecheng Jason Ma et William Liang et Hungju Wang et Sam Wang et Yuke Zhu et Linxi Fan et Osbert Bastani et Dinesh Jayaraman} année = {2024}, }


#Transfert #guidé #modèle #linguistique #vers #réel
1714762844

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

ADVERTISEMENT