Nouvelles Du Monde

Microsoft présente VASA-1, son générateur vidéo IA

Microsoft présente VASA-1, son générateur vidéo IA

Microsoft a dévoilé un nouveau modèle d’intelligence artificielle, VASA-1, capable de générer des vidéos hyperréalistes de visages humains parlant en utilisant simplement une photo et un échantillon de voix.

Selon la société, les vidéos créées comportent des mouvements synchronisés sur les lèvres pour correspondre à la voix, ainsi que des expressions faciales et des mouvements de tête pour paraître naturels. Il est à noter qu’un Microsoft n’a pas l’intention de publier un produit ou une API avec le modèle VASA-1 et affirme qu’il sera utilisé pour créer des personnages virtuels réalistes.

Il semble presque étrange de repenser à l’époque où l’IA ne pouvait générer des images qu’à partir d’une requête textuelle. Ces dernières années, l’intelligence artificielle générative est devenue de plus en plus puissante, et avec des outils comme le Sora, il pouvait aussi passer des photos aux vidéos. Et maintenant, Microsoft a dévoilé un appareil puissant qui pourrait être le plus impressionnant (et terrifiant) que nous ayons jamais vu. Les vidéos présentent des mouvements synchronisés du visage et des lèvres, ainsi qu’un large spectre de nuances faciales et de mouvements naturels de la tête qui contribuent à la perception d’authenticité et de vivacité.

Un Microsoft sur votre site de recherche explique le fonctionnement de la technologie :

« Les principales innovations incluent un modèle holistique de génération de dynamique du visage et de mouvement de la tête qui fonctionne dans un espace latent du visage, ainsi que le développement d’un tel espace latent du visage expressif et dissocié à l’aide de vidéos. Grâce à des expériences approfondies, y compris des évaluations basées sur une série de nouvelles mesures, nous montrons que notre méthode surpasse considérablement les méthodes précédentes dans diverses dimensions, de manière globale. Notre méthode fournit non seulement une qualité vidéo élevée avec une dynamique réaliste du visage et de la tête, mais prend également en charge la génération en ligne de vidéos 512 × 512 jusqu’à 40 FPS avec un délai de démarrage négligeable. Cela ouvre la voie à un engagement en temps réel avec des avatars réalistes qui imitent le comportement conversationnel humain.


2024-04-19 06:05:21
1713497077


#Microsoft #présente #VASA1 #son #générateur #vidéo

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

ADVERTISEMENT