Nouvelles Du Monde

OpenAI présente un nouveau modèle vidéo génératif étonnant appelé Sora

OpenAI présente un nouveau modèle vidéo génératif étonnant appelé Sora

Il faudra peut-être un certain temps avant que nous le sachions. L’annonce de Sora par OpenAI aujourd’hui est une astuce technologique, et la société affirme qu’elle n’a pas l’intention de le rendre public. Au lieu de cela, OpenAI commencera aujourd’hui pour la première fois à partager le modèle avec des testeurs de sécurité tiers.

L’entreprise s’inquiète notamment des potentielles utilisations abusives de vidéos fausses mais photoréalistes. “Nous faisons attention au déploiement ici et veillons à ce que toutes nos bases soient couvertes avant de remettre cela entre les mains du grand public”, déclare Aditya Ramesh, scientifique chez OpenAI, qui a créé le modèle texte-image de l’entreprise. DALL-E.

Mais OpenAI envisage un lancement de produit dans le futur. En plus des testeurs de sécurité, la société partage également le modèle avec un groupe sélectionné de vidéastes et d’artistes pour obtenir des commentaires sur la manière de rendre Sora aussi utile que possible aux professionnels de la création. “L’autre objectif est de montrer à tous ce qui se profile à l’horizon, de donner un aperçu de ce dont ces modèles seront capables”, explique Ramesh.

Lire aussi  Index - À l'étranger - Monica Lewinsky a refait surface avant l'élection présidentielle américaine

Pour créer Sora, l’équipe a adapté la technologie derrière DALL-E 3, la dernière version du modèle phare de conversion texte-image d’OpenAI. Comme la plupart des modèles de conversion texte-image, DALL-E 3 utilise ce que l’on appelle un modèle de diffusion. Ceux-ci sont formés pour transformer un flou de pixels aléatoires en une image.

Sora adopte cette approche et l’applique aux vidéos plutôt qu’aux images fixes. Mais les chercheurs ont également ajouté une autre technique au mélange. Contrairement à DALL-E ou à la plupart des autres modèles vidéo génératifs, Sora combine son modèle de diffusion avec un type de réseau neuronal appelé transformateur.

Les transformateurs sont excellents pour traiter de longues séquences de données, comme des mots. Cela en a fait la sauce spéciale dans les grands modèles de langage comme GPT-4 d’OpenAI et Gemini de Google DeepMind. Mais les vidéos ne sont pas faites de mots. Au lieu de cela, les chercheurs ont dû trouver un moyen de découper les vidéos en morceaux qui pourraient être traités comme s’ils l’étaient. L’approche qu’ils ont proposée consistait à découper les vidéos dans l’espace et dans le temps. «C’est comme si vous aviez une pile de toutes les images vidéo et que vous en découpiez de petits cubes», explique Brooks.

Lire aussi  Guerre Israël-Hamas : Biden dit que l'explosion de l'hôpital de Gaza "semble avoir été provoquée par l'autre équipe" et non par Israël

Le transformateur à l’intérieur de Sora peut alors traiter ces morceaux de données vidéo de la même manière que le transformateur à l’intérieur d’un grand modèle de langage traite les mots dans un bloc de texte. Les chercheurs affirment que cela leur a permis de former Sora sur beaucoup plus de types de vidéo que d’autres modèles texte-vidéo, variés en termes de résolution, de durée, de format d’image et d’orientation. “Cela aide vraiment le modèle”, déclare Brooks. “C’est quelque chose sur lequel nous n’avons connaissance d’aucun travail existant.”

“D’un point de vue technique, cela semble être un pas en avant très important”, déclare Sam Gregory, directeur exécutif de Witness, une organisation de défense des droits de l’homme spécialisée dans l’utilisation et le mauvais usage de la technologie vidéo. «Mais il y a deux faces à la médaille», dit-il. « Les capacités d’expression offrent la possibilité à beaucoup plus de personnes de devenir des conteurs utilisant la vidéo. Et il existe également de réelles possibilités d’abus.»

Lire aussi  Tir de masse en Alabama en direct: un tir de masse à la fête d'anniversaire de Dadeville fait quatre morts et plusieurs blessés

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

ADVERTISEMENT