Nouvelles Du Monde

Pourquoi les progrès du rendu 3D neuronal n’atteignent pas le marché

Vous n’avez pas pu assister à Transform 2022 ? Découvrez dès maintenant toutes les sessions du sommet dans notre bibliothèque à la demande ! Regardez ici.


Au cours des 10 dernières années, les réseaux de neurones ont fait un pas de géant de la reconnaissance d’objets visuels simples à la création de textes cohérents et de rendus 3D photoréalistes. À mesure que l’infographie devient plus sophistiquée, les réseaux de neurones aident à automatiser une partie importante du flux de travail. Le marché exige de nouvelles solutions efficaces pour créer des images 3D afin de remplir l’espace hyperréaliste du métaverse.

Mais quelles technologies allons-nous utiliser pour construire cet espace, et l’intelligence artificielle va-t-elle nous aider ?

Les réseaux de neurones émergent

Les réseaux de neurones sont entrés sous les projecteurs de l’industrie de la vision par ordinateur en septembre 2012, lorsque le réseau de neurones convolutifs AlexNet a remporté le Défi de reconnaissance visuelle à grande échelle ImageNet. AlexNet s’est avéré capable de reconnaître, d’analyser et de classer des images. Cette compétence révolutionnaire a provoqué la vague de battage médiatique que l’art de l’IA surfe toujours.

Ensuite, un article scientifique intitulé L’attention est tout ce dont vous avez besoin a été publié en 2017. L’article décrivait la conception et l’architecture d’un « transformateur », un réseau de neurones créé pour le traitement du langage naturel (TAL). OpenAI a prouvé l’efficacité de cette architecture en créant GPT-3 en 2020. De nombreux géants de la technologie se sont précipités pour se lancer dans une quête d’un résultat et d’une qualité similaires, et ont commencé à former des réseaux de neurones basés sur Transformers.

La capacité de reconnaître des images et des objets et de créer un texte cohérent à partir de ceux-ci a conduit à l’étape logique suivante dans l’évolution des réseaux de neurones : transformer la saisie de texte en images. Cela a lancé des recherches approfondies sur les modèles texte-image. En conséquence, la première version de LUI DONNER – une réalisation révolutionnaire dans l’apprentissage en profondeur pour la génération d’images 2D – a été créée en janvier 2021.

Lire aussi  Comment enregistrer et télécharger des vidéos de Pinterest ?

De la 2D à la 3D

Peu de temps avant DALL-E, une autre percée a permis aux réseaux de neurones de commencer à créer des images 3D avec presque la même qualité et la même vitesse qu’ils réussissaient à faire en 2D. Cela est devenu possible grâce à la méthode des champs de rayonnement neuronaux (NeRF), qui utilise un réseau de neurones pour recréer des scènes 3D réalistes basées sur une collection d’images 2D.

Le CGI classique exige depuis longtemps une solution plus rentable et flexible pour les scènes 3D. Pour le contexte, chaque scène d’un jeu vidéo se compose de millions de triangles, et il faut beaucoup de temps, d’énergie et de puissance de traitement pour les rendre. En conséquence, les industries du développement de jeux et de la vision par ordinateur essaient toujours de trouver un équilibre entre le nombre de triangles (plus le nombre est faible, plus ils peuvent être rendus rapidement) et la qualité de la sortie.

Contrairement à la modélisation polygonale classique, le rendu neuronal reproduit une scène 3D basée uniquement sur l’optique et les lois de l’algèbre linéaire. Nous voyons le monde en trois dimensions parce que les rayons du soleil se reflètent sur les objets et frappent nos rétines. NeRF modélise un espace selon le même principe, appelé rendu inverse. Les rayons de lumière frappent un point spécifique de la surface et se rapprochent du comportement de la lumière dans le monde physique. Ces rayons lumineux approximatifs ont un certain éclat – couleur – et c’est ainsi que NeRF décide de la couleur à “peindre” un pixel en connaissant ses coordonnées sur l’écran. De cette façon, toute scène 3D devient une fonction qui dépend des coordonnées x, y et z et de la direction de la vue.

NeRF peut modéliser un espace tridimensionnel de n’importe quelle complexité. La qualité du rendu présente également un grand avantage par rapport au rendu polygonal classique, car elle est étonnamment élevée. La sortie que vous obtenez n’est pas une image CGI, c’est une scène 3D photoréaliste qui n’utilise ni polygones ni textures et qui est exempte de tous les autres inconvénients connus des approches classiques du rendu.

Lire aussi  La nouvelle gamme d'iPad d'Apple provoque une confusion potentielle avec des fonctionnalités incohérentes

Vitesse de rendu : le principal gardien du rendu 3D neuronal

Même si la qualité de rendu est impressionnante lorsque NeRF est impliqué, il est toujours difficile à mettre en œuvre dans un environnement de production réel car il ne s’adapte pas bien et nécessite beaucoup de temps. Dans NeRF classique, il faut entre un et trois jours de formation pour recréer une scène. Ensuite, tout est rendu sur une carte graphique de haute qualité à 10 à 30 secondes par image. C’est encore incroyablement loin du rendu en temps réel ou sur l’appareil, il est donc trop tôt pour parler de l’utilisation à grande échelle de la technologie NeRF sur le marché.

Cependant, le marché est conscient de l’existence d’une telle technologie et il existe donc également une demande distincte pour celle-ci. En conséquence, de nombreuses améliorations et optimisations ont été mises en œuvre pour NeRF au cours des deux dernières années. Celle dont on parle le plus est la solution récente de Nvidia, Instant NeRF, créé en mars 2022. Cette approche a considérablement accéléré l’apprentissage des scènes statiques. Avec lui, la période d’entraînement ne prend pas deux jours mais quelque part entre quelques secondes et quelques minutes, et il est possible de rendre plusieurs dizaines d’images par seconde.

Cependant, un problème reste non résolu : comment rendre des scènes dynamiques. De plus, pour banaliser la technologie et la rendre attrayante et accessible à un marché plus large, elle doit encore être améliorée et rendue utilisable sur des équipements moins spécialisés, comme les ordinateurs portables personnels et les postes de travail.

La prochaine grande chose : combiner les transformateurs génératifs et NeRF

Tout comme le Transformer a autrefois stimulé le développement du NLP pour les représentations multimodales et a permis de créer des images 2D à partir de descriptions textuelles, il pourrait tout aussi rapidement stimuler le développement des NeRF et les rendre plus banalisés et répandus. Imaginez simplement que vous puissiez transformer une description textuelle en objets tridimensionnels, qui pourraient ensuite être combinés en scènes dynamiques à grande échelle. Cela peut sembler fantastique, mais c’est une tâche d’ingénierie totalement réaliste pour le futur proche. La résolution de ce problème pourrait créer une soi-disant «machine à imagination» capable de transformer n’importe quelle description textuelle en un récit 3D complet et dynamique, permettant à l’utilisateur de se déplacer ou d’interagir avec l’espace virtuel. Cela ressemble beaucoup au métaverse, n’est-ce pas ?

Lire aussi  La vidéo TikTok du drapeau juif vandalisé sur un site interconfessionnel à Vienne suscite la condamnation des responsables locaux

Cependant, avant que ce rendu neuronal ne devienne utile dans le métaverse du futur, il y a de réelles tâches pour lui aujourd’hui. Celles-ci incluent le rendu de scènes pour des jeux et des films, la création d’avatars 3D photoréalistes et le transfert d’objets sur des cartes numériques, le soi-disant tourisme photographique, où vous pouvez pénétrer dans un espace tridimensionnel de n’importe quel objet pour une expérience totalement immersive. Plus tard, une fois la technologie optimisée et banalisée, le rendu 3D neuronal pourrait devenir tout aussi courant et accessible à tous que les filtres photo et vidéo et les masques des applications pour smartphone que nous utilisons aujourd’hui.

Olas Petriv est CTO et co-fondateur de Reface.

DataDecisionMakers

Bienvenue dans la communauté VentureBeat !

DataDecisionMakers est l’endroit où les experts, y compris les techniciens travaillant sur les données, peuvent partager des informations et des innovations liées aux données.

Si vous souhaitez en savoir plus sur les idées de pointe et les informations à jour, les meilleures pratiques et l’avenir des données et de la technologie des données, rejoignez-nous sur DataDecisionMakers.

Vous pourriez même envisager de rédiger votre propre article !

En savoir plus sur DataDecisionMakers

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

ADVERTISEMENT