Des chercheurs de l’Université de Lima ont utilisé un algorithme entraîné sur des fragments de quechua pour reconstruire des passages entiers du codex de Pachacútec, un manuscrit royal disparu au XVIe siècle. Le résultat, publié cette semaine dans Nature Human Behaviour, relance le débat sur l’éthique des reconstitutions historiques par IA.
Reconstruction du codex de Pachacútec par une IA spécialisée en quechua classique
L’équipe dirigée par le linguiste Dr. Mateo Quispe, spécialiste des langues andines à l’Université de Lima, a présenté jeudi un modèle d’IA capable de générer des textes en quechua classique à partir de fragments archéologiques. Leur outil, baptisé Qhapaq Simi-GPT (du nom de la langue inca), a été formé sur 12 000 lignes de documents coloniaux et des inscriptions rupestres, puis affiné avec des motifs répétitifs typiques des chroniques royales inca.
"Nous avons identifié des schémas syntaxiques récurrents dans les récits de l’Empire inca, comme la structure des dates ou les formules de pouvoir impérial", explique le Dr. Quispe dans un entretien à Nature. "L’IA a puisé dans ces motifs pour proposer des versions plausibles de passages manquants du codex de Pachacútec, un registre administratif et religieux brûlé par les conquistadors en 1533."
Le modèle a produit 37 pages reconstituées du manuscrit, dont certaines correspondent à des descriptions géographiques ou des listes de tributs déjà attestées par d’autres sources. "Ce n’est pas une réécriture, mais une hypothèse étayée par la linguistique et l’archéologie", précise la paléographe Sofía Condori, co-autrice de l’étude.
Critiques éthiques et juridiques sur l’usage de l’IA pour les savoirs autochtones
L’annonce a suscité des réactions mitigées dans la communauté scientifique. Certains y voient une avancée majeure pour comprendre la pensée politique inca, tandis que d’autres craignent une instrumentalisation des cultures autochtones.
Critiques principales :
- L’absence de consensus sur l’authenticité : Les historiens comme Dr. Javier Delgado (Université du Cuzco) soulignent que "les textes générés par IA ne peuvent être considérés comme des preuves historiques, mais comme des scénarios plausibles". Delgado, qui n’a pas participé à l’étude, rappelle que "le quechua classique n’est pas une langue figée : ses variantes régionales et temporelles restent mal documentées".
- Le risque de surinterprétation : Dans un éditorial pour The Conversation, l’anthropologue Elena Rojas met en garde contre "l’effet ‘archive parfaite’", où des reconstitutions par IA pourraient être présentées comme des découvertes archéologiques, alors qu’elles relèvent de la modélisation.
- La propriété intellectuelle des savoirs autochtones : Des représentants de la communauté quechua, comme Mamani Huanca du Qhapaq Ñan International, ont demandé que les résultats soient soumis à validation par des porteurs de savoirs traditionnels avant toute publication. "Un texte inca n’appartient pas aux algorithmes, mais à nos ancêtres", a-t-il déclaré lors d’une conférence à Cusco la semaine dernière.
Réponses des chercheurs :
Le Dr. Quispe insiste sur le fait que "l’outil est conçu comme un assistant pour les chercheurs, pas comme une source définitive". Son équipe collabore avec des locuteurs natifs de quechua pour affiner les résultats. "Nous ne cherchons pas à remplacer les sources primaires, mais à combler des lacunes là où elles sont trop fragmentaires", ajoute Condori.
Mécanismes techniques et validation des textes reconstitués par Qhapaq Simi-GPT
L’algorithme repose sur trois piliers techniques :
- L’analyse des répétitions : Les textes incas utilisaient des formules standardisées pour les dates (ex. "l’année du serpent" pour 1525) ou les titres royaux. L’IA a identifié ces motifs dans les sources existantes.
- La modélisation des "trous" historiques : En croisant des descriptions espagnoles de rituels incas avec des artefacts archéologiques (comme les quipus), l’équipe a reconstitué des séquences logiques. Par exemple, un passage généré décrit un recensement de populations dans la région de Cuzco en 1510, cohérent avec des données de tributs rapportées par les chroniques de Pedro Cieza de León.
- La validation par les experts : Chaque "page reconstruite" a été soumise à trois linguistes et un historien pour évaluer sa plausibilité. "Nous avons écarté 40% des propositions initiales car elles contredisaient des faits archéologiques connus", précise Condori.
Exemple concret :
Un fragment reconstitué décrit ainsi la construction d’un tambo (relais routier inca) près de Machu Picchu :
"En l’année du puma, sous le règne de l’Inca Pachacútec, on ordonna de bâtir un tambo à la frontière du territoire des Antis. Cent hommes furent mobilisés, avec des pierres taillées à Huayna Picchu et des toits de chaume tressé selon la méthode de la famille des Urco." — Qhapaq Simi-GPT
Cette description correspond à des fouilles récentes menées par l’Institut National de Culture du Pérou, qui ont révélé des fondations de structures similaires datées de 1450.
Perspectives d’application et risques futurs pour l’archéologie et les cultures autochtones
Malgré ces succès, l’équipe admet plusieurs obstacles :
- Le manque de données : "Nous n’avons que 0,01% des textes incas originaux", rappelle le Dr. Quispe. Les chroniques espagnoles, bien que riches, sont des traductions biaisées par la perspective coloniale.
- Les ambiguïtés linguistiques : Le quechua classique comptait des dialectes régionaux (ex. le quechua de Cuzco vs. celui des Andes centrales). L’IA peine à distinguer ces nuances sans supervision humaine.
- La subjectivité des "scénarios plausibles" : Comme le souligne Rojas, "deux modèles différents pourraient générer deux versions contradictoires d’un même événement. Comment arbitrer ?"
Pour répondre à ces critiques, l’équipe travaille sur une version open-source de Qhapaq Simi-GPT, avec un protocole de validation communautaire. "Nous voulons que les locuteurs de quechua puissent corriger, compléter ou rejeter nos propositions", annonce Condori.
Plusieurs projets similaires émergent dans le monde :
- En Égypte, des chercheurs de l’Université du Caire utilisent des modèles linguistiques pour reconstituer des hiéroglyphes effacés sur des papyrus.
- En Mésopotamie, l’IA a aidé à déchiffrer des tablettes cunéiformes fragmentaires en identifiant des motifs grammaticaux communs.
- Au Japon, un projet pilote teste des algorithmes pour "compléter" des rouleaux anciens endommagés par l’humidité.
Perspectives pour les langues andines :
- La préservation des savoirs oraux : Des organisations comme l’Asociación de Lenguas Indígenas del Perú envisagent d’utiliser l’IA pour transcrire des récits traditionnels en danger, comme le aymara ou le asháninka.
- L’éducation bilingue : Des écoles quechuas au Pérou et en Bolivie pourraient intégrer des outils comme Qhapaq Simi-GPT pour enseigner l’histoire inca dans sa langue originale.
- Les musées interactifs : Le Musée National d’Archéologie de Lima prépare une exposition où les visiteurs pourraient "voir" des textes incas reconstitués via une interface IA, avec des explications en quechua et en espagnol.
Risques à surveiller :
- La désinformation historique : "Un touriste pourrait croire qu’il lit un texte original alors qu’il s’agit d’une génération par IA", avertit Delgado.
- L’appropriation culturelle : Sans garde-fous, ces technologies pourraient être utilisées pour "inventer" des récits incas à des fins commerciales (ex. romans, films).
Aucune loi ne régit encore l’usage de l’IA pour reconstituer des cultures disparues. Les chercheurs appellent à :
- Une charte éthique : Comme celle proposée par l’International Council of Museums pour l’usage de l’IA en patrimoine.
- Un label de validation : Un sceau indiquant quand un texte est une source primaire, une traduction, ou une reconstitution par IA.
- La participation des communautés : "Les Quechuas doivent avoir un mot à dire sur ce qui est ‘ressuscité’ en leur nom", insiste Huanca.
Prochaine étape : L’équipe de Lima prévoit de publier une base de données publique des fragments générés, avec un système de commentaires ouvert aux locuteurs de quechua. "Notre objectif n’est pas de remplacer les historiens, mais de leur donner de nouveaux outils", conclut Quispe.
Pour aller plus loin :
- L’étude complète : Nature Human Behaviour, juin 2026 (accès payant, résumé gratuit).
- Le code source de Qhapaq Simi-GPT : GitHub (licence open-source).
- Déclaration de la communauté quechua : Qhapaq Ñan International (consulté le 16 juin 2026).
Find more reporting in our Sciences et technologies section.



