Nouvelles Du Monde

Sora : le nouvel outil OpenAI qui convertit du texte en vidéos réalistes

Sora : le nouvel outil OpenAI qui convertit du texte en vidéos réalistes

Nous savons déjà que le chatbots d’OpenAI peuvent réussir l’examen de droit sans avoir à aller à l’école. Maintenant, juste à temps pour les Oscars, une nouvelle application OpenAI appelée Sora espère maîtriser le cinéma sans aller à l’école de cinéma. Sora, qui est actuellement un produit de recherche, sera distribué à quelques créateurs et experts en sécurité sélectionnés qui le testeront pour détecter les vulnérabilités de sécurité. OpenAI prévoit de le mettre à la disposition de tous les auteurs en herbe à une date indéterminée, mais a décidé de l’avancer.

Vidéo photoréaliste vraiment étonnante

D’autres sociétés, de géants comme Google un startups comme Piste, ont déjà révélé des projets d’IA qui traduisent du texte en vidéo. Cependant, OpenAI affirme que Sora se distingue par son incroyable photoréalisme, quelque chose que je n’ai pas vu parmi ses concurrents, et également par sa capacité à produire des clips d’une durée allant jusqu’à une minute, plus longs que les courts extraits que d’autres modèles produisent généralement. Les chercheurs à qui j’ai parlé n’ont pas voulu me dire combien de temps il fallait pour restituer toute cette vidéo, mais quand j’ai insisté, ils l’ont décrit comme suit : quelque chose qui ressemble plus à “sortir acheter un burrito” qu’à “prendre quelques jours de congé”et si l’on en croit les exemples que j’ai vus, l’effort en vaut la peine.

Lire aussi  Trump accusé de fraude électorale en Géorgie

OpenAI ne m’a pas permis de saisir le mien instructions, mais a partagé quatre exemples du pouvoir de Sora. Aucun ne s’est approché de la limite supposée d’une minute ; le plus long a duré 17 secondes. Le premier est venu d’une indication (rapide) détaillé qui sonnait comme le montage d’un scénariste obsessionnel. “La belle ville enneigée de Tokyo bat son plein.” La caméra se déplace dans la rue animée de la ville, suivant plusieurs personnes profitant du beau temps enneigé et faisant leurs achats dans les stands à proximité. Beaux pétales sakura [cerezos] Ils volent au gré du vent avec les flocons de neige.”

Vidéo générée par l’IA réalisée avec Sora par OpenAI.

Avec l’aimable autorisation d’OpenAI

Le résultat est une vision fascinante de ce à quoi ressemble sans aucun doute Tokyo, dans ce moment magique où les flocons de neige et les fleurs de cerisier cohabitent. La caméra virtuelle, comme attachée à un drone, suit un couple qui se promène lentement dans un paysage de rue. L’un des passants porte un masque. À sa gauche, des voitures roulent le long de la route au bord de la rivière, et à sa droite, des acheteurs entrent et sortent d’une rangée de petites boutiques.

N’est-il pas parfait

Ce n’est qu’en regardant la vidéo plusieurs fois que l’on se rend compte que les protagonistes (un couple se promenant sur un trottoir enneigé) auraient été confrontés à un dilemme si la caméra virtuelle avait continué à fonctionner. Le trottoir sur lequel ils marchent semble n’avoir aucune issue ; ils auraient dû escalader une petite balustrade pour atteindre une étrange passerelle parallèle sur leur droite. Malgré cette petite erreur, L’exemple de Tokyo est un exercice époustouflant de construction du monde. Plus tard, les décorateurs débattront pour savoir s’il s’agit d’un contributeur puissant ou d’un tueur d’emplois. De plus, les personnages de cette vidéo (entièrement générés par un réseau neuronal numérique) n’apparaissent pas au premier plan et n’émettent aucun son. Cependant, l’équipe de Sora assure qu’à d’autres occasions, elle a utilisé de faux acteurs qui montraient de vraies émotions.

Les autres clips sont également impressionnants, notamment celui qui demande “une scène animée d’un petit monstre pelucheux agenouillé à côté d’une bougie rouge”, ainsi que des instructions détaillées pour la scène (“yeux écarquillés et bouche ouverte”) et une description. du sentiment que vous souhaitez transmettre avec le clip. Sora produit une créature de style Pixar qui semble avoir l’ADN d’un Furby, d’un Gremlin et de Sully, de Monsters Inc. Je me souviens que lorsque ce dernier film est sorti, Pixar avait beaucoup insisté sur la difficulté de créer le film. texture ultra-complexe de la fourrure d’un monstre quand la créature bougeait. Il a fallu des mois aux magiciens de Pixar pour y parvenir. La nouvelle machine de conversion texte-vidéo d’OpenAI… vient de le faire, apparemment en même temps que je sors manger un burrito.

“Vous en apprenez davantage sur la géométrie et la cohérence 3D”, explique Tim Brooks, chercheur scientifique sur le projet, ajoutant : “Nous ne l’avons pas intégré, cela vient de l’examen d’un grand nombre de données.”

Vidéo générée par l’IA réalisée avec le rapide « La scène animée présente un gros plan d’un petit monstre pelucheux agenouillé à côté d’une bougie rouge fondante. Le style artistique est 3D et réaliste, avec une attention particulière à l’éclairage et à la texture. L’ambiance du tableau est celle de l’émerveillement et de la curiosité, alors que le monstre regarde la flamme avec les yeux écarquillés et la bouche ouverte. Sa pose et son expression transmettent un sentiment d’innocence et de joie, comme s’il explorait le monde qui l’entoure pour la première fois. “L’utilisation de couleurs chaudes et d’un éclairage spectaculaire renforce encore l’atmosphère chaleureuse de l’image.”

Avec l’aimable autorisation d’OpenAI

Une intelligence artificielle qui raconte des histoires

Si les scènes sont certes impressionnantes, les capacités les plus surprenantes de Sora sont celles pour lesquelles elle n’a pas été entraînée. Grâce à une version de modèle de diffusion Utilisé par l’imageur Dall.E3 d’OpenAI et le moteur basé sur transformateur de GPT-4, Sora va au-delà de la production de vidéos qui répondent aux exigences de instructionsmais il le fait d’une manière qui démontre une compréhension émergente du récit cinématographique.

Cela se traduit par un don pour raconter des histoires.. Bill Peebles, un autre chercheur du projet, note que Sora a créé un récit guidé par les angles de caméra et le timing. “Il y a en fait plusieurs changements de plan : ils ne sont pas ‘cousus’, mais générés par le modèle d’un seul coup”, explique-t-il, “on ne lui a pas dit de le faire, il l’a fait automatiquement.”

Vidéo générée par l’IA réalisée avec le rapide “un monde en papier magnifiquement rendu représentant un récif de corail, regorgeant de poissons colorés et de créatures marines.”Avec l’aimable autorisation d’OpenAI

Vidéo à partir d’une image

Dans un autre exemple que je n’ai pas pu voir, Sora a été invité à visiter un zoo. “Il a commencé avec le nom du zoo sur un grand panneau, puis l’a progressivement descendu, puis a effectué une série de changements de plans pour montrer les différents animaux qui vivent dans le zoo”, explique Peebles. “Il l’a fait d’une manière magnifique et cinématographique. cela n’avait pas été explicitement ordonné.”

Une fonctionnalité de Sora que l’équipe OpenAI n’a pas présentée et qui pourrait ne pas être publiée avant un certain temps est la possibilité de générer des vidéos à partir d’une seule image ou d’une séquence d’images. “Cela va être un autre très bon moyen d’améliorer les capacités de narration”, déclare Brooks. “Vous pouvez dessiner exactement ce que vous avez en tête, puis l’animer pour lui donner vie.” OpenAI est conscient que cette fonctionnalité a également le potentiel de produire contrefaçons profondes et la désinformation. “Nous allons être très prudents quant à toutes les implications de sécurité”, ajoute Peebles.

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

ADVERTISEMENT