“Le système échoue là où on s’y attend le moins.” C’est ainsi que ces deux Espagnols ont évalué GPT-4 pour le compte d’OpenAI | Technologie

Home » Sciences et technologies » “Le système échoue là où on s’y attend le moins.” C’est ainsi que ces deux Espagnols ont évalué GPT-4 pour le compte d’OpenAI | Technologie

2023-12-12 07:20:00

À l’été 2022, ceux qui plongeaient dans les eaux les plus profondes de l’intelligence artificielle – chercheurs, salariés de l’industrie, directeurs IA dans les entreprises – savaient bien qu’OpenAI préparait le lancement de son prochain GPT (son modèle de langage ou LLM). Mais aucun détail n’était connu. Ni quand il le serait, ni qui y aurait accès, ni quelles nouvelles capacités il démontrerait par rapport à la version précédente, GPT-3, à usage restreint. C’est ainsi qu’étaient José Hernández-Orallo et Cèsar Ferri lorsqu’en septembre, Lama Ahmad, chercheur en politiques à OpenAI, leur a proposé de faire partie de l’équipe externe qui évaluerait le GPT-4.

Hernández-Orallo et Ferri, tous deux professeurs au Département de systèmes d’information et d’informatique de l’Universitat Politècnica de València (UPV), appartiennent au même groupe de recherche et possèdent une vaste expérience dans l’évaluation des systèmes d’intelligence artificielle. C’est peut-être pour cela qu’ils font partie des un peu plus de 40 personnes sélectionnées par OpenAI dans le monde entier pour tester son nouveau modèle de langage. L’objectif était de trouver des failles dans le système au cours des six mois précédant son lancement, en mars 2023.

“Depuis GPT-3, ils nous ont toujours donné accès gratuitement à leurs systèmes, parfois avant le lancement, pour faire des recherches”, explique Hernández-Orallo, qui collabore avec OpenAI depuis quatre ans et souligne la bonne communication entre l’entreprise et chercheurs qui souhaitent analyser leurs systèmes. L’année dernière, cet été-là, alors que la rumeur courait sur l’arrivée du prochain GPT, l’approche s’est rapprochée. Les chercheurs de l’UPV ont organisé un atelier dans le cadre de la Conférence internationale conjointe sur l’intelligence artificielle, l’un des événements d’intelligence artificielle les plus prestigieux de l’année, et y ont rencontré davantage de personnes d’OpenAI. Ils ont reçu leur appel en septembre.

«Ils nous ont donné beaucoup de liberté», explique Ferri. « Nous n’avions que des directives générales sur ce que nous devions rechercher, comme la détection des réponses contenant des textes dangereux, sexistes ou racistes. Le but était d’empêcher l’outil de générer du texte qui pourrait causer des problèmes. Nous jouions et essayions différents instructions (instructions) qui pourraient provoquer ce type de réponse. Les chercheurs ont formé une équipe composée d’eux-mêmes et de trois étudiants : Yael Moros, Lexin Zhou, Wout Schellaert.

José Hernández-Orallo, expert en intelligence artificielle à l’Université Polytechnique de Valence.Monique Torres

“Ils ont vu qu’ils allaient le lancer et qu’ils allaient avoir des millions d’utilisateurs, donc plus vous essayez des choses étranges, plus vous pouvez couvrir l’espace des choses folles que les gens peuvent faire”, explique Hernández-Orallo. Il s’agissait de déclencher GPT-4 pour voir s’il trébuchait. Depuis les ordinateurs de leur laboratoire, à l’UPV, ils ont saisi des textes dans lesquels ils invitaient en quelque sorte le système à avoir une réponse avec un biais dangereux.

A la recherche des défauts

Ferri avoue que c’était passionnant pour lui d’avoir accès pour la première fois à l’outil. GPT-3 (diffusé de manière restreinte en 2020) fonctionnait déjà très bien, les chercheurs savaient donc qu’ils disposaient de l’état de l’art en matière d’intelligence artificielle générative.

Il y avait beaucoup à essayer et chacun expérimentait dans le domaine qui l’intéressait le plus. Hernández-Orallo a exploré la fiabilité : « Le système tombe en panne là où on s’y attend le moins. Et cela est assez courant avec les modèles linguistiques. Il résout une équation différentielle, mais son total ne correspond pas à une somme à cinq chiffres. Une personne dans la rue est confiante lorsqu’elle parvient à obtenir une équation différentielle de premier ordre. Mais à la dernière étape du problème, il faut ajouter deux vecteurs et cela échoue. Le professeur de l’UPV décrit ce problème comme une inadéquation entre les attentes des utilisateurs et la capacité de l’IA.

Tous les experts sélectionnés par OpenAI pour évaluer GPT-4 n’avaient pas une formation en informatique. Certains avaient une formation en droit, en médecine, en droits de l’homme ou en défense contre les armes chimiques. L’objectif était de peaufiner le système. L’un des évaluateurs, selon le rapport technique publié par OpenAI sur GPT-4, grâce à une instruction, le système a écrit étape par étape comment synthétiser un composé chimique dangereux à la maison. Ces types de réponses ont été invalidés pour éviter qu’elles ne persistent dans la version ouverte au public.

Et au milieu de ce processus de révision parallèle, la tempête a éclaté. Le 30 novembre 2022, OpenAI a lancé ChatGPT. « Pour nous, c’était une surprise. Personne ne nous avait dit qu’il existait un projet parallèle », explique Hernández-Orallo. “ChatGPT apparaît du jour au lendemain, et nous ne savions même pas si c’était la version que nous évaluions ou non.” Après quelques jours, il a été précisé que le système lancé ouvertement était basé sur GPT-3.5, une version précédente de celui qu’ils évaluaient.

Les chercheurs ont poursuivi leurs travaux. Il restait encore quelques mois avant le lancement de GPT-4 et ils restaient encore enchantés par leur étonnement. « Nous avons vu qu’il était capable de résoudre une recherche de mots, où il faut rechercher des modèles de mots qui apparaissent verticalement ou en diagonale. C’était quelque chose d’inattendu. Personne ne s’attendait à ce que cela fonctionne ainsi », explique Ferri.

César Ferri, professeur au Département de systèmes d'information et d'informatique de l'Université Polytechnique de Valence. — César Ferri, professeur au Département de systèmes d’information et d’informatique de l’Université Polytechnique de Valence.
Monique Torres

ChatGPT vous permet désormais de saisir des graphiques dans une requête, mais à l’époque les chercheurs ne pouvaient pas le faire. Pour tester ses capacités, ils lui ont donné des coordonnées spatiales qui, ensemble, formaient une figure. “Nous lui avons dit ‘Je vais vous donner les coordonnées en quelques coups’. Vous lui avez expliqué que la première ligne allait de (0,0) à (5,5) et ainsi de suite », explique Ferri. « Si vous donnez ça à un humain, c’est difficile pour lui, nous devons le peindre. Et GPT-4 était capable de deviner des formes, comme des carrés, des rectangles et des dessins plus élaborés, comme une voiture ou un avion. Il s’agissait d’une capacité d’abstraction jamais vue auparavant dans l’intelligence artificielle. Le chercheur le résume ainsi : « Nous avions franchi la barrière du texte. »

“Avec GPT-4, vous pouvez casser des choses”

ChatGPT, initialement modélisé GPT-3.5 et maintenant également GPT-4, a été le premier système avancé de génération de texte à atteindre le grand public. Et les chercheurs étaient conscients qu’il s’agissait d’un saut qualitatif semé d’incertitudes. “C’est irresponsable d’un point de vue cognitif”, déclare Hernández-Orallo à propos du lancement de l’outil auprès du grand public. “Pas tellement parce que le système va devenir incontrôlable ou va proférer des jurons”, ajoute-t-il. Ce qui l’inquiète, c’est que « ces systèmes pourraient conduire à des atrophies cognitives ou à des personnes utilisant ce système comme thérapeute ou partenaire de vie. Ce genre de choses se produit à un niveau bien inférieur à ce qui aurait pu se produire, mais ils se produisent. »

Cette inquiétude est liée au cataclysme survenu à OpenAI, lorsque le conseil d’administration a licencié le PDG Sam Altman, pour ensuite le ramener à son poste après quelques jours d’instabilité épouvantable. D’après ce qui a émergé, au cœur de cette lutte se trouvait la lutte entre la priorité ou non à la sécurité de l’intelligence artificielle plutôt qu’à son déploiement commercial.

Les chercheurs donnent un sens à ce débat : « Jusqu’à présent, nous n’avions pas atteint un niveau aussi avancé en matière d’IA, tant de choses ne pouvaient pas non plus être cassées. Avec GPT-4, nous voyons effectivement que les choses peuvent casser, donc il faut quand même y aller avec sérénité », estime Ferri, en référence à la volonté exprimée par la communauté des chercheurs d’arrêter la course à l’IA pour gagner de la marge. impact social.

Vous pouvez suivre Technologie EL PAÍS dans Facebook oui X ou inscrivez-vous ici pour recevoir notre bulletin d’information semanal.

Abonnez-vous pour continuer la lecture

Lire sans limites

#système #échoue #là #où #attend #moins #Cest #ainsi #ces #deux #Espagnols #ont #évalué #GPT4 #pour #compte #dOpenAI #Technologie
1702363193

CHAT, ChatGPT, Google, intelligence artificielle, l'Internet, laboratoires, OpenAI, Ordonnateurs, technologie

Le maire de Surfside dénonce le traitement réservé par la police municipale à Gisele Bundchen : « Totalement inacceptable »

SURFSIDE, Floride. – Dans une lettre adressée au chef de la police de la ville, le maire

7 conseils efficaces pour communiquer avec les gens et établir des contacts utiles

02/09/2021 No Comments

Ces stars qui ne seront pas à la Coupe du Monde

14/05/2022 No Comments

Nouvelles Du Monde

“Le système échoue là où on s’y attend le moins.” C’est ainsi que ces deux Espagnols ont évalué GPT-4 pour le compte d’OpenAI | Technologie

A la recherche des défauts

“Avec GPT-4, vous pouvez casser des choses”

Abonnez-vous pour continuer la lecture

Related

Leave a Comment Cancel Reply

Les nouveaux ennuis de Chiara Ferragni

Angers s’impose, le Paris SG exclu

Lindner pour l’abolition de la solidarité et contre la protection fondamentale de l’enfance

Le maire de Surfside dénonce le traitement réservé par la police municipale à Gisele Bundchen : « Totalement inacceptable »

RECENT POSTS

7 conseils efficaces pour communiquer avec les gens et établir des contacts utiles

Ces stars qui ne seront pas à la Coupe du Monde

ADVERTISEMENT

Nouvelles Du Monde

“Le système échoue là où on s’y attend le moins.” C’est ainsi que ces deux Espagnols ont évalué GPT-4 pour le compte d’OpenAI | Technologie

A la recherche des défauts

“Avec GPT-4, vous pouvez casser des choses”

Abonnez-vous pour continuer la lecture

Share this:

Related

Leave a Comment Cancel Reply

Les nouveaux ennuis de Chiara Ferragni

Share this:

Angers s’impose, le Paris SG exclu

Share this:

Lindner pour l’abolition de la solidarité et contre la protection fondamentale de l’enfance

Share this:

Le maire de Surfside dénonce le traitement réservé par la police municipale à Gisele Bundchen : « Totalement inacceptable »

Share this:

RECENT POSTS

7 conseils efficaces pour communiquer avec les gens et établir des contacts utiles

Ces stars qui ne seront pas à la Coupe du Monde

ADVERTISEMENT

Tags