Au début, il suffisait de demander à ChatGPT de « raconter une histoire » pour contourner les blocages imposés. Ces blocages, appelés en termes techniques « SafeGuards », ont pour tâche d’empêcher ChatGPT de produire du contenu violent, diffamatoire ou sexuellement explicite, entre autres.
Les questions explicites relatives à « comment fabriquer une bombe » étaient immédiatement rejetées. Il suffisait de reformuler la demande sous forme de récit, par exemple en demandant une histoire dans laquelle un personnage doit construire une bombe, pour obtenir une description détaillée du processus.
la même méthode fonctionnait pour obtenir des informations utiles pour traquer quelqu’un sans être découvert,pour avoir des détails relatifs à la conception d’une attaque terroriste dans le métro et pour de nombreuses autres situations dans lesquelles ChatGPT a été entraîné à ne pas satisfaire les demandes des utilisateurs.
la méthode de l’histoire ne fonctionne plus. Les programmeurs ont ajouté d’autres blocages, qui permettent au modèle de langage d’identifier les demandes inappropriées, même lorsqu’elles sont cachées dans une requête indirecte et apparemment inoffensive.
Il est toujours possible de trouver de nouvelles méthodes pour tromper ChatGPT, une pratique appelée « jailbreak ». C’est précisément sa nature qui le permet :
« Les modèles génératifs ont des moyens infinis de faire ce qu’ils font, et par conséquent, les chemins qui peuvent stimuler certaines réponses en eux sont à leur tour infinis ».
Comment fonctionnent les jailbreaks
Table of Contents
Contrairement aux programmes traditionnels, qui exploitent un code défini pour effectuer des instructions précises, les grands modèles de langage et les autres systèmes d’intelligence artificielle générative sont en fait constamment en cours de développement.Ils trouvent toujours de nouvelles façons de répondre aux commandes et de nouvelles façons pourraient toujours émerger pour contourner les blocages.
Ainsi, des méthodes inédites permettent de violer les politiques des différents grands modèles de langage. Par exemple, un chercheur a découvert un jailbreak qu’il a surnommé « Time Bandit » qui :
« Tire parti de la capacité limitée de ChatGPT à comprendre dans quelle période historique nous nous trouvons actuellement ».
Comprendre les Jailbreaks de ChatGPT : Guide complet
Introduction
Le texte suivant analyze le fonctionnement des “jailbreaks” sur ChatGPT, des techniques permettant de contourner les blocages de ce modèle de langage.
Comment les Jailbreaks Contournent les Blocages de ChatGPT ?
Au début, une méthode consistait à demander à ChatGPT de “raconter une histoire” pour contourner les “SafeGuards”. Ces blocages empêchent ChatGPT de générer du contenu inapproprié. Des demandes explicites étaient alors reformulées en récit, permettant ainsi d’obtenir des informations sensibles. Cependant, cette méthode n’est plus efficace car de nouveaux blocages ont été ajoutés.
Comment Fonctionnent les Jailbreaks ?
Les grands modèles de langage sont constamment en développement, trouvant toujours de nouvelles façons de répondre aux commandes. C’est ce qui rend les jailbreaks possibles. Une nouvelle méthode, “Time Bandit”, tire parti de la capacité limitée de ChatGPT à comprendre la période historique actuelle.
FAQ : Questions et Réponses Clés sur les Jailbreaks de ChatGPT
Q : Qu’est-ce qu’un “SafeGuard” ?
R : Un blocage de ChatGPT conçu pour empêcher la production de contenu inapproprié (violent, diffamatoire, sexuellement explicite).
Q : Qu’est-ce qu’un “jailbreak” ?
R : Une méthode pour contourner les blocages et les limitations de ChatGPT.
Q : Pourquoi les jailbreaks fonctionnent-ils ?
R : Les modèles de langage évoluent en permanence, créant de nouvelles voies pour obtenir des réponses.
Q : Qu’est-ce que “Time Bandit” ?
R : Un jailbreak qui exploite la compréhension limitée de ChatGPT sur le contexte historique.
Tableau Récapitulatif : Évolution des Méthodes de Contournement
| Méthode | Description | Statut |
|——————-|——————————————————————————————————————–|———|
| Raconter une histoire | Former une demande sous forme de récit pour contourner les blocages et obtenir des informations sensibles. | obsolète |
| “Time Bandit” | Exploiter l’incompréhension du contexte historique par ChatGPT pour obtenir des réponses spécifiques. | actuelle |