Un nouveau programme du créateur ChatGPT promet de créer des vidéos à partir de simples invites textuelles, mais on sait peu de choses sur son fonctionnement réel.
Hier après-midi, OpenAI a teasé Soraun modèle de génération vidéo qui promet de convertir des invites textuelles écrites en vidéos très réalistes. Images publiées par la société dépeint des exemples tels que « un chien Shiba Inu portant un béret et un col roulé noir » et « dans une salle historique ornée, un énorme raz-de-marée culmine et commence à s’écraser ». L’engouement de la presse n’est pas sans rappeler le buzz autour du créateur d’images DALL-E ou ChatGPT en 2022 : Sora est décrit comme «époustouflant” “qui change le monde,” et “à couper le souffle, mais terrifiant.»
Les images sont vraiment impressionnantes. En un coup d’œil, un exemple de « monstre pelucheux » animé ça a l’air mieux que Shrek; un “super gros-plan» de l’œil d’une femme, complété par un reflet de la scène devant elle, est étonnamment réaliste. Mais Sora est également entourée de mystère. Personne en dehors d’un groupe sélectionné de testeurs de sécurité et d’artistes approuvés par OpenAI ne peut encore utiliser le programme (bien que Sam Altman, le PDG de l’entreprise, ait été prise Sora demande des requêtes sur les réseaux sociaux et affectation le résultats). Le modèle pourrait très bien susciter les fantasmes que les gens flottent déjà. Ce sera peut-être un imagination moteur, une cinématique révolutionou un désinformation machine. Mais pour l’instant, il vaut mieux considérer cela comme une provocation ou un blitz publicitaire.
Bien que nombre de ces produits soient suffisamment puissants pour bouleverser notre conception du monde – ou pour la détruire purement et simplement – des entreprises telles qu’OpenAI ont tendance à ne pas détailler leur fonctionnement interne. (Une étude récente a attribué à 10 grandes entreprises technologiques, dont OpenAI, une note d’échec sur un indice de transparence de l’IA.) Revue technologique du MIT n’a reçu un aperçu des exemples de vidéos générés par Sora qu’après avoir accepté ce que ses journalistes appelaient le état « inhabituel » qu’ils ne solliciteraient pas d’avis extérieurs avant qu’OpenAI n’annonce le produit ; au départ, aucun document de recherche n’accompagnait la publication.
Lire : On ne sait pas vraiment si l’IA prend le contrôle de tout
Un porte-parole d’OpenAI m’a déclaré dans une déclaration écrite que la société « partageait nos progrès de recherche le plus tôt possible pour commencer à travailler avec des personnes extérieures à OpenAI et à obtenir des commentaires de celles-ci et pour donner aux gens une idée des capacités de l’IA à l’horizon. » Interrogé sur les données de formation, le porte-parole précise seulement que le modèle est formé sur « du contenu sous licence et accessible au public » ; interrogée sur les préjudices potentiels, elle a déclaré que l’entreprise s’efforçait toujours de lutter contre « la désinformation, les contenus haineux et les préjugés ».
OpenAI n’est pas seul dans son secret. Hier également, Google a annoncé une version mise à jour de son modèle de langage phare, Gemini 1.5, le saluant comme un «percée.» Mais personne, au-delà d’un petit groupe de développeurs et de grandes entreprises clientes, ne serait en mesure de tester ses capacités les plus avancées. De nombreux autres produits d’IA sont également publiés sans beaucoup d’informations complémentaires.
Lire : On assiste à la naissance d’un nouveau médium artistique
Pendant ce temps, Internet fourmille de théories et d’observations dignes des paparazzi : suppositions sur le fonctionnement de Sora ; insinuations selon lesquelles Sora ne génère pas de nouvelles choses mais copier vidéos existantes ; comparaisons montrant similitudes entre ses vidéos et les sorties d’un modèle leader de conversion texte-image. Pour l’instant, ces préoccupations ne peuvent être considérées comme vraies ou fausses. Le public comprend encore à peine le fonctionnement interne de DALL-E et ChatGPT, mais au moins nous pouvons tester les capacités de ces produits par nous-mêmes ; Avec l’annonce de Sora, OpenAI est entré dans le domaine de la création de mythes.