L’IA Générative Face au Dilemme des Données : Le Common Corpus, une Alternative Prometteuse
En tant que journaliste spécialisé dans les technologies émergentes, je suis frappé par une tension croissante dans le monde de l’intelligence artificielle : la nécessité d’énormes quantités de données pour entraîner les grands modèles de langage (LLM), et les questions juridiques et éthiques que cela soulève. La course à la génération d’IA a conduit de nombreuses entreprises à collecter massivement des données sur Internet, sans toujours se soucier des droits d’auteur ou des licences. Mais une alternative émerge, incarnée par le Common Corpus, un projet français qui pourrait bien redéfinir les règles du jeu.
Le Problème de l’Approvisionnement en Données
Comme le soulignent de nombreuses analyses, l’approvisionnement en données de formation est l’un des points les plus litigieux du développement actuel de l’IA. La création de LLM performants exige des volumes colossaux de données. L’approche consistant à “tout saisir” sur le web est non seulement juridiquement incertaine, mais elle pose également des problèmes de qualité et de biais. Des procès sont en cours, mais le paysage juridique reste flou.
Common Corpus : Une Solution Basée sur l’Ouverture
Le Common Corpus, développé par la startup française Pleias, propose une approche radicalement différente. Il s’agit d’un ensemble de données massif, constitué uniquement de matériel dans le domaine public ou publié sous des licences “permissives” qui autorisent son utilisation pour l’entraînement de LLM. Lancé il y a un peu plus d’un an, ce corpus a déjà atteint plus de 2,267 billions de jetons – l’unité de mesure standard pour le volume de données de formation.
Le saviez-vous ? Un “jeton” peut être un mot entier ou une partie de mot. Plus le nombre de jetons est élevé, plus le modèle a été exposé à une grande variété de données.
Diversité et Multilinguisme : Les Atouts du Common Corpus
Ce qui distingue particulièrement le Common Corpus, c’est sa diversité et son caractère multilingue. Il comprend des articles scientifiques, des documents gouvernementaux et juridiques, du code, des données sur le patrimoine culturel, des livres et des journaux. Il représente principalement des données en anglais et en français, mais contient au moins 1 billion de jetons pour plus de 30 langues. La dernière version inclut des données pour huit langues avec plus de 10 milliards de jetons et 33 langues avec plus d’un milliard de jetons.
Le corpus est organisé en cinq catégories principales : OpenGovernment, OpenCulture, OpenScience, OpenWeb et OpenSource. Par exemple, OpenGovernment inclut des données financières et juridiques, tandis qu’OpenCulture contient des livres et des journaux datant parfois des XVIIIe et XIXe siècles.
Conformité et Sécurité : Un Argument de Poids
Au-delà de l’aspect juridique, le Common Corpus offre des garanties en matière de conformité réglementaire et de sécurité. Il a été conçu pour dépasser les exigences des réglementations les plus strictes sur les données de formation en IA, comme la loi européenne sur l’IA. Pleias a également mis en place des procédures pour garantir la conformité au RGPD et supprimer les informations personnelles identifiables (PII).
Conseil d’expert : Pour les entreprises soucieuses de la conformité et de la protection des données, le Common Corpus représente une base solide pour développer des modèles d’IA sécurisés et fiables.
Un Soutien Gouvernemental et Communautaire
Le projet Common Corpus bénéficie d’un soutien croissant, tant du gouvernement français que d’organisations engagées dans l’ouverture des données. Il a été construit avec le soutien de l’AI Alliance, du ministère de la Culture français, de Wikimedia Enterprise et de Bibliothèques sans frontières. Des entreprises comme Jean Zay (Eviden, Idris) et Tracto AI fournissent également un soutien technique.
L’Avenir de l’IA Ouverte : Une Question de Soutien
Le Common Corpus est une démonstration convaincante du potentiel de l’ouverture et des licences permissives. Il permet de former des LLM compatibles avec la définition de l’IA open source, qui inclut l’ouverture d’utilisation, autorisant l’utilisation à “n’importe quelle fin et sans avoir à demander d’autorisation”. Il est donc particulièrement adapté aux initiatives européennes en matière d’IA publique.
Je suis convaincu que davantage de gouvernements et d’éditeurs devraient soutenir ce type d’initiative, comme alternative aux systèmes propriétaires, souvent opaques en ce qui concerne l’origine de leurs données de formation. Le Common Corpus offre une ressource précieuse pour éviter les problèmes de droit d’auteur et construire une IA plus transparente et responsable.
FAQ
Qu’est-ce que le Common Corpus ? Un ensemble de données massif pour l’entraînement de LLM, constitué uniquement de matériel ouvert ou sous licence permissive.
Quels sont les avantages du Common Corpus ? Conformité juridique, diversité linguistique, sécurité des données et possibilité de former des modèles open source.
Qui soutient le Common Corpus ? Le gouvernement français, l’AI Alliance, Wikimedia Enterprise et plusieurs entreprises technologiques.
Comment puis-je accéder au Common Corpus ? Il est disponible sur Hugging Face Datasets.
N’hésitez pas à partager vos réflexions sur cette évolution prometteuse dans les commentaires ci-dessous. Pour en savoir plus sur les dernières tendances en matière d’IA, abonnez-vous à notre newsletter !
