IA : ChatGPT et les autres modèles s’effondrent face à la complexité,révèle une étude d’Apple
Les modèles d’intelligence artificielle (IA) les plus avancés,tels que ChatGPT,Claude et Deepseek,montrent des signes de faiblesse lorsqu’ils sont confrontés à des problèmes complexes. Une nouvelle étude menée par des chercheurs d’Apple met en lumière les limites de ces systèmes, malgré leur capacité à générer des réponses convaincantes et des explications détaillées. Ces modèles, souvent qualifiés de “raisonneurs”, semblent trébucher et parfois même échouer complètement face à des défis qui dépassent leurs capacités.
L’illusion de la pensée : les limites des grands modèles de raisonnement
L’étude d’Apple, intitulée “L’illusion de la pensée”, révèle que les performances des grands modèles de raisonnement (LRM) se dégradent considérablement face à des problèmes complexes. Ces modèles, conçus pour “penser” à travers des tâches complexes en utilisant une série d’étapes internes, incluent des systèmes comme ChatGPT O3, Deepseek-R1 et Claude 3.7 Sonnet Thinking.
Les chercheurs ont testé la capacité de ces modèles à gérer des problèmes de difficulté croissante, en évaluant non seulement la justesse de leurs réponses, mais aussi la qualité de leur raisonnement.Les résultats sont sans appel : à mesure que la complexité augmente, les performances des modèles s’effondrent.
Des tests rigoureux pour évaluer le raisonnement des IA
L’équipe d’Apple a créé des environnements de puzzle personnalisés, tels que la tour de Hanoï, River Crossing et Blocksworld, pour contrôler précisément les niveaux de complexité. Ces configurations ont permis d’observer non seulement si les modèles trouvaient la bonne réponse, mais aussi comment ils essayaient d’y parvenir. les chercheurs ont constaté que :
- À faible complexité, les LLM traditionnels (sans chaînes de raisonnement) fonctionnent mieux et sont plus efficaces.
- À complexité moyenne, les modèles de raisonnement prennent brièvement l’avantage.
- À complexité élevée,les deux types échouent complètement.
Même lorsqu’on leur a fourni un algorithme étape par étape pour résoudre un problème, les modèles ont commis des erreurs critiques. Cela suggère qu’ils luttent non seulement avec la créativité ou la résolution de problèmes, mais aussi avec l’exécution logique de base.
Un comportement étrange face à l’effort
Les modèles ont également montré un comportement surprenant en ce qui concerne l’effort qu’ils déploient.au-delà d’un certain seuil, ils ont brusquement commencé à “penser” moins, même sans atteindre de limite de calcul. Apple appelle cela une “limitation de mise à l’échelle du temps d’inférence fondamentale”.
Le scientifique cognitif gary Marcus souligne que cette étude confirme ce qu’il avance depuis des années : ces systèmes ne généralisent pas bien au-delà de leurs données d’entraînement. Les “traces de raisonnement” des modèles peuvent sembler convaincantes,mais ne reflètent souvent pas ce qu’ils ont réellement fait pour parvenir à une conclusion.
Des implications majeures pour l’avenir de l’IA
Les conclusions d’Apple sont claires : les meilleurs modèles actuels sont des “correspondants de modèles super chers” qui ne peuvent imiter le raisonnement que dans des paramètres familiers. Dès qu’ils sont confrontés à de nouveaux problèmes,ils s’effondrent. Ces résultats ont de graves implications pour les affirmations selon lesquelles l’IA devient capable d’un raisonnement humain.
L’approche actuelle pourrait être bloquée, et la surmonter pourrait nécessiter une manière entièrement différente de penser à la façon dont nous construisons des systèmes intelligents. En bref, nous sommes encore loin d’une véritable intelligence artificielle générale (IAG).
Tableau récapitulatif des performances des modèles d’IA
Complexité du problème | LLM traditionnels | Modèles de raisonnement |
---|---|---|
Faible | Meilleures performances et efficacité | Moins performants |
Moyenne | Moins performants | Avantage temporaire |
Élevée | Échec complet | Échec complet |
Le Saviez-vous ?
L’expression “intelligence artificielle” a été inventée en 1956 lors d’une conférence à Dartmouth College. Les participants, dont John Mccarthy, Marvin Minsky et Claude Shannon, sont considérés comme les pères fondateurs de l’IA.
Astuce
Pour mieux comprendre le fonctionnement des IA, explorez des outils comme Google AI Playground ou Hugging Face. Ils permettent d’expérimenter avec différents modèles et de visualiser leurs processus de décision.
Foire aux Questions (FAQ) sur les limites de ChatGPT et autres IA
- Pourquoi les modèles d’IA comme ChatGPT ont-ils des difficultés face à la complexité ? Selon une étude d’Apple, ces modèles, bien qu’impressionnants en apparence, peinent à maintenir leurs performances lorsqu’ils sont confrontés à des problèmes complexes qui sortent de leurs données d’entraînement.
- Qu’est-ce qu’un grand modèle de raisonnement (LRM) ? Un grand modèle de raisonnement (LRM) est un type de modèle d’IA conçu pour simuler la pensée à travers des tâches complexes en utilisant une série d’étapes internes, souvent appelées “chaîne de pensée”.
- Comment l’étude d’Apple a-t-elle évalué les capacités de raisonnement des modèles d’IA ? Les chercheurs d’Apple ont utilisé des puzzles personnalisés avec des niveaux de complexité variables pour observer comment les modèles tentaient de résoudre les problèmes, en se concentrant sur leur processus de raisonnement plutôt que seulement sur la réponse finale.
- Quelles sont les implications des résultats de l’étude pour le développement futur de l’IA ? L’étude suggère que l’approche actuelle du développement de l’IA pourrait atteindre ses limites et qu’une nouvelle façon de concevoir des systèmes intelligents pourrait être nécessaire pour surmonter ces obstacles.
- Les modèles d’IA peuvent-ils suivre des instructions précises pour résoudre des problèmes complexes ? Même lorsqu’on leur fournit un algorithme étape par étape, les modèles d’IA ont du mal à exécuter des instructions logiques de base, ce qui indique une limitation fondamentale dans leur capacité de raisonnement.
Que pensez-vous de ces révélations ? Les IA sont-elles surestimées ? Partagez votre avis et cet article !