Home Sciences et technologiesModèles du monde : l’IA sort du web et entre dans le réel

Modèles du monde : l’IA sort du web et entre dans le réel

by Louis Girard - Tech

L’IA face au monde réel : les modèles du monde, nouvelle frontière de l’intelligence artificielle

Les grands modèles de langage (LLM) ont révolutionné le traitement du langage naturel, mais ils butent sur une réalité fondamentale : le monde physique. Leur incapacité à comprendre la causalité et la dynamique du réel freine leur application dans des domaines cruciaux comme la robotique, la conduite autonome et la fabrication. Face à cette limite, un nouveau paradigme émerge : les modèles du monde. Et les investisseurs le confirment, avec des levées de fonds spectaculaires comme celle d’AMI Labs (1,03 milliard de dollars) et de World Labs (1 milliard de dollars).

Pourquoi les LLM ne suffisent plus ?

Les LLM excellent dans la prédiction du prochain mot, mais ils manquent cruellement de compréhension du monde physique. Ils peuvent générer du texte cohérent, mais ne peuvent pas prédire de manière fiable les conséquences d’une action dans le monde réel. Comme l’a souligné Richard Sutton, lauréat du prix Turing, les LLM imitent simplement ce que les humains disent, sans réellement modéliser le monde. Cette limitation se traduit par un comportement fragile et des erreurs inattendues, même face à de légères modifications des entrées.

Bon à savoir : Demis Hassabis, PDG de Google DeepMind, parle d’une « intelligence irrégulière » pour décrire les modèles actuels. Ils peuvent résoudre des problèmes complexes, mais échouent dans des tâches simples de physique de base.

Trois approches architecturales pour des modèles du monde

Les chercheurs explorent différentes voies pour construire ces modèles du monde, chacune avec ses propres avantages et inconvénients. On distingue principalement trois approches :

JEPA : l’apprentissage des représentations latentes

AMI Labs mise sur l’architecture prédictive d’intégration conjointe (JEPA). Plutôt que de prédire chaque pixel d’une image, JEPA apprend un ensemble restreint de caractéristiques abstraites, ou “latentes”. C’est une approche inspirée du fonctionnement du cerveau humain : nous ne mémorisons pas chaque détail d’une scène, mais nous nous concentrons sur les éléments essentiels. Cette méthode est particulièrement efficace en termes de calcul et de mémoire, ce qui la rend adaptée aux applications en temps réel comme la robotique et la conduite autonome. AMI Labs collabore déjà avec la société de soins de santé Nabla pour simuler la complexité des environnements médicaux.

Architecture V-JEPA (source: Meta FAIR)

Splats gaussiens : la construction d’environnements spatiaux

World Labs adopte une approche différente, basée sur la création d’environnements 3D complets à partir de zéro. Ils utilisent des splats gaussiens, des particules mathématiques qui définissent la géométrie et l’éclairage d’une scène. Ces représentations 3D peuvent être importées directement dans des moteurs physiques, permettant une interaction immersive. Cette méthode est particulièrement intéressante pour l’informatique spatiale, le divertissement interactif et la création d’environnements de formation pour la robotique. Autodesk soutient activement World Labs, témoignant de l’intérêt de l’industrie pour cette technologie.

Génération de bout en bout : la simulation continue

DeepMind (avec Genie 3) et Nvidia (avec Cosmos) explorent une troisième voie : la génération de bout en bout. Le modèle génère en continu la scène, la physique et les réactions en temps réel, agissant comme un moteur physique intégré. Cette approche permet de créer des usines de données synthétiques robustes, essentielles pour le développement de véhicules autonomes et de robots. Waymo, filiale d’Alphabet, utilise déjà Genie 3 pour former ses voitures autonomes.

Le saviez-vous ? Nvidia Cosmos permet de synthétiser des conditions extrêmes et dangereuses pour tester les systèmes d’IA, sans les risques et les coûts des tests physiques.

L’avenir : des architectures hybrides

Les LLM continueront de jouer un rôle important en tant qu’interface de raisonnement et de communication. Cependant, les modèles du monde se positionnent comme une infrastructure fondamentale pour les applications physiques et spatiales. L’avenir réside probablement dans des architectures hybrides, combinant les forces de chaque approche. Par exemple, DeepTempo a développé LogLM, un modèle qui intègre des éléments des LLM et de JEPA pour détecter les anomalies de sécurité.

FAQ : Les questions que vous vous posez

  • Qu’est-ce qu’un modèle du monde ? Un modèle du monde est une représentation interne du monde physique, permettant à l’IA de comprendre la causalité et de prédire les conséquences de ses actions.
  • Pourquoi les LLM ont-ils besoin de modèles du monde ? Les LLM excellent dans le traitement du langage, mais ils manquent de compréhension du monde réel, ce qui limite leur application dans des domaines comme la robotique et la conduite autonome.
  • Quelles sont les principales approches architecturales ? Les principales approches sont JEPA (apprentissage des représentations latentes), les splats gaussiens (construction d’environnements spatiaux) et la génération de bout en bout (simulation continue).
  • Quelles sont les applications potentielles ? Robotique, conduite autonome, fabrication, soins de santé, divertissement interactif, informatique spatiale, cybersécurité…

L’évolution vers des modèles du monde marque une étape cruciale dans le développement de l’IA. Elle ouvre la voie à des systèmes plus robustes, plus adaptables et capables d’interagir de manière significative avec le monde qui nous entoure. Restez connectés pour suivre les prochaines avancées dans ce domaine passionnant.

Et vous, quelles applications des modèles du monde vous semblent les plus prometteuses ? Partagez votre avis dans les commentaires !

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.