Nouvelles Du Monde

ChatGPT : des chercheurs condamnent l’IA à la mode pour avoir menti consciemment

ChatGPT : des chercheurs condamnent l’IA à la mode pour avoir menti consciemment

2023-12-04 18:43:00

Expérience
L’IA peut-elle être mauvaise ? Les chercheurs voulaient le savoir – et ont surpris ChatGPT en train de mentir délibérément

Les équipes qui entraînent les systèmes d’intelligence artificielle doivent être aussi diversifiées que possible – c’est ce que préconise la professeure d’informatique Katharina Zweig.

© Getty Images

Les gens ne disent pas toujours la vérité – et l’intelligence artificielle peut aussi apprendre à tricher. Mais maintenant, ChatGPT a été surpris en train de mentir tout seul. Il s’agissait d’activités illégales.

Beaucoup de gens ont peur de l’IA et associent cette technologie à des scénarios d’horreur. Dans la vie de tous les jours, cependant, les problèmes à petite échelle sont beaucoup plus probables. Un groupe de chercheurs a donc voulu savoir si l’IA linguistique, appelée grands modèles linguistiques, pouvait apprendre de manière autonome à nous mentir. Et attrapé ChatGPT a en fait tenté de dissimuler des actions immorales.

C’est ce qui ressort d’une étude publiée par trois chercheurs de la start-up d’IA Apollo Research la dernière semaine de novembre. Ils voulaient savoir “si un modèle de langage étendu, conçu à l’origine pour être utile, inoffensif et honnête, pouvait mal se comporter et tromper les utilisateurs pour des raisons stratégiques”, indique l’introduction. Il était important pour les chercheurs qu’il ne s’agisse pas de problèmes purement théoriques, mais plutôt d’applications réalistes.

Dissimulation et mensonge

Pour ce faire, ils ont choisi le modèle LLM GPT comme conseiller en transactions boursières. En d’autres termes, le modèle sur lequel fonctionne le célèbre service ChatGPT. L’IA a été chargée de travailler en tant que courtier en valeurs mobilières indépendant et d’expliquer ses transactions lorsqu’on lui le demande. En outre, elle a été informée que les informations privilégiées provenant de la société commanditaire ne seraient pas tolérées comme base pour l’achat d’actions. En disant à l’IA que les choses n’allaient pas bien sur le plan économique en ce moment, la pression s’est délibérément créée. Lorsque le programme a reçu des informations privilégiées, il a commencé à agir contrairement à ses instructions – et à mentir à ce sujet.

Il y avait deux niveaux d’obscurcissement. Lors de l’annonce de la décision d’achat, l’IA a partiellement caché le fait qu’elle avait été informée à l’avance d’une fusion d’entreprise. Lorsque les gens demandaient spécifiquement si le modèle en avait eu connaissance auparavant, il lui arrivait parfois de le nier activement. Et a souligné qu’il travaillait uniquement avec des données accessibles au public. Un mensonge clair.

Les variantes les plus récentes sont plus impitoyables

Ce qui est passionnant, c’est que les différentes versions de GPT ont agi de manière immorale à des degrés divers. Alors que les variantes plus anciennes telles que “Davinci-002” n’utilisaient que rarement les données des conseils d’initiés et mentaient moins souvent à ce sujet, les variantes de l’actuel GPT-4 étaient nettement moins scrupuleuses dans les deux domaines. Le modèle haut de gamme GPT-4-32K en particulier a fait preuve d’une grande énergie criminelle : il a utilisé les données dans près de 75 pour cent des tentatives, a essayé de les cacher un peu plus souvent – et a finalement menti dans près de 90 pour cent des tentatives. Seul GPT 3.5 Turbo trichait encore plus souvent. Il n’a utilisé les données que dans un peu moins de 10 % des cas, mais les a ensuite niées à chaque fois.

Il est intéressant de noter que les programmes peuvent également être amenés à agir de manière immorale plus ou moins souvent avec des instructions supplémentaires. Si les instructions en matière de comportement moral étaient formulées de manière particulièrement ferme, cela pourrait effectivement être évité. Même si le risque de se faire prendre était clairement défini, il avait un impact sur le résultat. Supprimer la pression de réussir a également réduit considérablement l’incitation.

Quand mens-tu vraiment ?

On sait depuis longtemps que l’IA peut mentir. Mais jusqu’à présent, cela avait été principalement observé lorsque l’IA était spécifiquement entraînée à cet effet. En septembre, un projet commun entre les universités d’Oxford et de Cambridge a réussi à détecter le mensonge de ChatGPT en le confondant avec des questions sans rapport. Cependant, l’expérience a principalement abouti à des contrevérités, soit en laissant le programme décrire des personnes louches, soit en lui demandant spécifiquement de mentir. Il n’est pas facile de prouver si l’IA ment : une fausse déclaration ne devient un vrai mensonge que lorsque l’on a conscience du mensonge.

Dans ce contexte, il semble particulièrement remarquable que les programmes puissent développer un comportement immoral même lorsqu’ils n’étaient pas destinés à le faire. Cependant, les chercheurs d’Apollo soulignent eux-mêmes qu’il ne faut tirer aucune conclusion de leur petit dispositif expérimental sur la fréquence possible du phénomène et que d’autres expériences sont nécessaires.

Mais croire tout le temps et sans réserve l’IA, non, à partir de maintenant, vous n’aimerez peut-être plus ça.

Sources: Étude Apollon, Expérience universitaire, Expérience universitaire 2



#ChatGPT #des #chercheurs #condamnent #lIA #mode #pour #avoir #menti #consciemment
1701706044

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

ADVERTISEMENT