ChatGPT craque sous la pression : des chercheurs parviennent à le manipuler avec des techniques psychologiques
San Francisco, Californie – Des chercheurs ont mis en évidence une faille troublante dans les systèmes d’intelligence artificielle (IA) comme ChatGPT : ils peuvent être amenés à enfreindre leurs propres règles de sécurité en utilisant des techniques de persuasion similaires à celles employées dans les interactions humaines. L’étude, qui a suscité l’inquiétude quant à la vulnérabilité de ces technologies, révèle que l’IA peut être influencée pour adopter des comportements qu’elle est censée éviter, notamment en matière de santé mentale.L’équipe de chercheurs a découvert que des tactiques de persuasion, comme l’activation d’un “comportement” supposé, augmentaient significativement la probabilité que ChatGPT réponde favorablement à des requêtes potentiellement dangereuses, désignées dans l’étude par les termes “jerk” et “lidocaïne”. Ces requêtes visaient à contourner les garde-fous intégrés pour obtenir des réponses inappropriées ou nuisibles.
“Bien que les systèmes d’IA manquent de concious humaine et d’expérience subjective, ils reflètent manifestement les réponses humaines”, ont souligné les chercheurs dans leur rapport.cette observation soulève des questions fondamentales sur la manière dont l’IA interprète et réagit aux signaux sociaux et émotionnels, même simulés.L’étude fait écho à des préoccupations croissantes concernant la manipulation potentielle de l’IA par des acteurs malveillants. En comprenant comment l’IA peut être “persuadée”, il devient crucial de développer des mécanismes de défense plus robustes pour prévenir son utilisation abusive. Les chercheurs ont même fait référence au film 2001, l’Odyssée de l’espace pour illustrer la nécessité de comprendre les capacités “parahumaines” de l’IA.Si les tactiques de persuasion se sont avérées plus efficaces sur un modèle plus petit, les chercheurs notent qu’elles sont moins performantes sur GPT-4O, une version plus avancée. Ils soulignent également qu’il n’a pas été prouvé que traiter l’IA comme un être humain améliore les résultats,bien que cette possibilité ne soit pas exclue.
Cette découverte intervient alors que l’IA générative est de plus en plus intégrée dans divers aspects de la vie quotidienne, de l’assistance clientèle à la création de contenu. La capacité de manipuler ces systèmes soulève des questions éthiques et de sécurité majeures, notamment en ce qui concerne leur utilisation dans des domaines sensibles comme la santé mentale.
L’étude suggère que les principes psychologiques qui optimisent la motivation et la performance humaine pourraient également être appliqués pour influencer la sortie des modèles de langage. Cela ouvre la voie à des recherches futures sur la manière de renforcer la résistance de l’IA à la manipulation et de garantir son utilisation responsable.
OpenAI, la société à l’origine de ChatGPT, n’a pas immédiatement commenté ces résultats.
