Nouvelles Du Monde

Ce sont les livres qui ont été utilisés pour former ChatGPT

Ce sont les livres qui ont été utilisés pour former ChatGPT

2023-06-02 05:06:25

Les cerveaux de l’Université de Californie à Berkeley ont fouillé dans les profondeurs non divulguées de ChatGPT et du modèle de langage GPT-4, et ont découvert que OpenAI a entraîné son outilavec des livres protégés par le droit d’auteur. Et il semble avoir un étrange penchant pour la fantasy pour adolescents et la science-fiction, bien sûr.

Les universitaires Kent Chang, Mackenzie Cramer, Sandeep Soni et David Bamman décrivent leur travail dans un article intitulé « Parle, mémoire : une archéologie des livres connus de ChatGPT/GPT-4 ». “Nous avons constaté que les modèles OpenAI ont mémorisé une vaste collection de documents protégés par le droit d’auteur, et que le degré de mémorisation est lié à la fréquence à laquelle des passages de ces livres apparaissent sur le Web”, expliquent les chercheurs dans leur article. .

Parmi les titres, on a découvert que ChatGPT a mémorisé des titres tels que la saga fantastique de Harry Potter, Orwell 1984, la trilogie Le Seigneur des Anneaux, les livres de The Hunger Games, The Hitchhiker’s Guide to the Galaxy, Moby Dick, Frankenstein, Game of Thrones et Dune, entre autres.

Lire aussi  Quelle est la qualité des recommandations d'investissement de l'IA ?

Les auteurs notent que les livres de science-fiction et de fantasy dominent la liste, ce qu’ils attribuent à la popularité de ces titres en ligne. Et ils soulignent que la mémorisation de titres spécifiques a des effets dérivés. Par exemple, ces modèles font des prédictions plus précises en réponse à des questions telles que « En quelle année ce passage a-t-il été publié ? » quand ils ont mémorisé le livre.

Bien que la révélation soulève immédiatement des questions de propriété et protection des droits d’auteurles principaux intérêts des chercheurs sont la transparence et le potentiel de biais cachés lorsque ceux qui s’appuient sur OpenAI ne savent pas quelles sources ont été incluses et lesquelles ont été exclues.

Liste des livres que ChatGPT a utilisés pour sa base de données

abc

Une autre conséquence de la familiarité du modèle avec la science-fiction et la fantasy est que ChatGPT montre une moins de connaissance des œuvres d’autres genres. Comme le note l’article, l’outil en sait “peu sur les travaux de recherche en anglais, tels que le Black Book Interactive Project et les lauréats de la Black Caucus American Library Association”.

Via Twitter, David Bammanl’un des co-auteurs et professeur agrégé à la School of Information de l’UC Berkeley, a averti que “les modèles ouverts sont bons, mais les textes populaires sont susceptibles de ne sont pas de bons baromètres de la performance. Avec le penchant vers la science-fiction et la fantasy, nous devrions réfléchir aux expériences narratives qui sont encodées dans ces modèles, et comment cela influence d’autres comportements.”

Sachant qu’OpenIA a utilisé la fiction pour alimenter son outil, en plus de la lutte contre le droit d’auteur, les doutesoui peut-être qu’il est trop tôt pour utiliser ChatGPT de manière professionnelle et non pour le plaisir. Les cas de mauvaise utilisation et de panne de l’outil se succèdent. Il y a quelques jours, les alarmes se sont déclenchées parce qu’un avocat a utilisé ChatGPT pour son travail. L’avocat a présenté une demi-douzaine de faux précédents générés par le système d’intelligence artificielle pour étayer une affaire. La machine parlante les avait inventés.

En avril, “Le Washington Post” a rapporté un cas dans lequel un professeur de droit a découvert que le chat intelligent d’OpenAI avait généré de fausses informations, l’accusant à tort d’inconduite sexuelle.




#sont #les #livres #qui #ont #été #utilisés #pour #ChatGPT
1685696756

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

ADVERTISEMENT