2023-06-02 05:06:25
Les cerveaux de l’Université de Californie à Berkeley ont fouillé dans les profondeurs non divulguées de ChatGPT et du modèle de langage GPT-4, et ont découvert que OpenAI a entraîné son outilavec des livres protégés par le droit d’auteur. Et il semble avoir un étrange penchant pour la fantasy pour adolescents et la science-fiction, bien sûr.
Les universitaires Kent Chang, Mackenzie Cramer, Sandeep Soni et David Bamman décrivent leur travail dans un article intitulé « Parle, mémoire : une archéologie des livres connus de ChatGPT/GPT-4 ». “Nous avons constaté que les modèles OpenAI ont mémorisé une vaste collection de documents protégés par le droit d’auteur, et que le degré de mémorisation est lié à la fréquence à laquelle des passages de ces livres apparaissent sur le Web”, expliquent les chercheurs dans leur article. .
Parmi les titres, on a découvert que ChatGPT a mémorisé des titres tels que la saga fantastique de Harry Potter, Orwell 1984, la trilogie Le Seigneur des Anneaux, les livres de The Hunger Games, The Hitchhiker’s Guide to the Galaxy, Moby Dick, Frankenstein, Game of Thrones et Dune, entre autres.
Les auteurs notent que les livres de science-fiction et de fantasy dominent la liste, ce qu’ils attribuent à la popularité de ces titres en ligne. Et ils soulignent que la mémorisation de titres spécifiques a des effets dérivés. Par exemple, ces modèles font des prédictions plus précises en réponse à des questions telles que « En quelle année ce passage a-t-il été publié ? » quand ils ont mémorisé le livre.
Bien que la révélation soulève immédiatement des questions de propriété et protection des droits d’auteurles principaux intérêts des chercheurs sont la transparence et le potentiel de biais cachés lorsque ceux qui s’appuient sur OpenAI ne savent pas quelles sources ont été incluses et lesquelles ont été exclues.
Une autre conséquence de la familiarité du modèle avec la science-fiction et la fantasy est que ChatGPT montre une moins de connaissance des œuvres d’autres genres. Comme le note l’article, l’outil en sait “peu sur les travaux de recherche en anglais, tels que le Black Book Interactive Project et les lauréats de la Black Caucus American Library Association”.
Via Twitter, David Bammanl’un des co-auteurs et professeur agrégé à la School of Information de l’UC Berkeley, a averti que “les modèles ouverts sont bons, mais les textes populaires sont susceptibles de ne sont pas de bons baromètres de la performance. Avec le penchant vers la science-fiction et la fantasy, nous devrions réfléchir aux expériences narratives qui sont encodées dans ces modèles, et comment cela influence d’autres comportements.”
Plats à emporter : les modèles ouverts sont bons ; les textes populaires ne sont probablement pas de bons baromètres de la performance des modèles ; avec le biais vers la science-fiction/fantasy, nous devrions réfléchir aux expériences narratives qui sont encodées dans ces modèles, et comment cela influence d’autres comportements. 5/6
—David Bamman (@dbamman) 2 mai 2023
Sachant qu’OpenIA a utilisé la fiction pour alimenter son outil, en plus de la lutte contre le droit d’auteur, les doutesoui peut-être qu’il est trop tôt pour utiliser ChatGPT de manière professionnelle et non pour le plaisir. Les cas de mauvaise utilisation et de panne de l’outil se succèdent. Il y a quelques jours, les alarmes se sont déclenchées parce qu’un avocat a utilisé ChatGPT pour son travail. L’avocat a présenté une demi-douzaine de faux précédents générés par le système d’intelligence artificielle pour étayer une affaire. La machine parlante les avait inventés.
En avril, “Le Washington Post” a rapporté un cas dans lequel un professeur de droit a découvert que le chat intelligent d’OpenAI avait généré de fausses informations, l’accusant à tort d’inconduite sexuelle.
#sont #les #livres #qui #ont #été #utilisés #pour #ChatGPT
1685696756