Évolution rapide à l’intersection de l’IA et des effets visuels
01.01.70
Chris LeDoux, cofondateur de l’entreprise, se souvient : « Tout a commencé pendant la COVID, lorsque je regardais des vidéos YouTube d’auteurs comme Bycloud et Two Minute Papers. C’est alors que notre superviseur des effets visuels et savant fou Aldo Ruggiero a commencé à me montrer un certain nombre de choses incroyables pour lesquelles il utilisait l’IA sur le film qu’il supervisait.
Il est devenu clair pour LeDoux « que l’IA allait bouleverser notre industrie de manière massive ».
Il explique : « Les développements de l’IA/ML semblaient vouloir créer un changement fondamental dans la façon dont nous abordions et résolvions les problèmes liés à la création et à l’augmentation des tirs. Je savais que nous devions en faire une priorité absolue.
Depuis lors, Crafty Apes a appliqué l’IA à un large éventail de projets VFX, reflétant une mise en œuvre accélérée de la technologie de l’IA par l’industrie des effets visuels.
« Je peux vous dire que nous avons tiré parti de l’apprentissage [ML] automatique pour des tâches telles que les créations deepfake, les effets anti-âge, la manipulation faciale, la rotoscopie, le traitement d’images et de vidéos et le transfert de style, et la liste continue de s’allonger. » Il note qu’une fois que les outils d’IA sont intégrés dans le pipeline, ils « accélèrent considérablement le flux de travail, réduisent considérablement les coûts des effets visuels et permettent aux artistes de consacrer plus de temps à la créativité ».
Il ajoute : « Nous ne devrions pas surestimer ce que l’IA sera capable de faire, et il y a beaucoup de battage médiatique maintenant. En même temps, cela aura un impact significatif et immédiat sur tous les aspects de la création de contenu, et nous devons en reconnaître les conséquences. L’industrie étudie « de nombreux concepts et implémentations pour l’IA et le ML qui sont très prometteurs, et [is] en utilise certains déjà aujourd’hui », selon M. Basse.
Digital Domain a utilisé l’apprentissage automatique sur des films très médiatisés tels que Avengers : Infinity War et Avengers : Endgame, ainsi que des séries limitées She-Hulk : Attorney at Law pour Disney+.
Il a également créé une « simulation visuelle » 3D du célèbre entraîneur de la NFL Vince Lombardi – avec l’aide de Charlatan, le logiciel de rendu neuronal d’apprentissage automatique de Digital Domain – pour le Super Bowl de février 2021.
"Notre travail sur She-Hulk l’année dernière a fait un usage intensif de cette technologie.
En fait, nous ne pensons pas que nous aurions pu livrer autant de plans sans lui, compte tenu du temps et des ressources dont nous disposions pour travailler sur ce projet. [We also did] un travail fantastique avec la simulation de tissu sur Blue Beetle. Nous utilisons essentiellement cette technologie maintenant sur pratiquement toutes les émissions sur lesquelles nous travaillons. Avant cela, la création numérique du visage du personnage de Thanos dans Avengers : Infinity War a été la première application majeure de l’apprentissage automatique de Digital Domain et a utilisé le système de capture faciale Masquerade. Avengers : Endgame l’a suivi de près.
« Depuis, DD a beaucoup plus travaillé avec cette technologie », remarque M. Basse.
« Par exemple, nous avons créé une ancienne version de David Beckham pour sa campagne « Malaria Must Die – So Millions Can Live » et utilisé notre technologie d’échange de visages Charlatan basée sur le ML pour redonner vie à la chanteuse taïwanaise décédée Teresa Teng, virtuellement.
Basse ajoute : « En général, l’apprentissage automatique s’est avéré très utile pour aider à créer des résultats plus photoréalistes et plus précis. Mais c’est vraiment l’interaction de l’IA et du savoir-faire de nos artistes – qu’ils ont acquis au fil des décennies, dans de nombreux cas – qui nous permet de créer des résultats crédibles. Wētā FX « Nous travaillons depuis longtemps avec divers outils de ML et modèles d’IA de base », explique Joe Letteri, superviseur senior des effets visuels chez Wētā FX.
En fait, le logiciel Massive, utilisé depuis le Seigneur des Anneaux, utilise une IA primitive à logique floue pour piloter ses agents.
Letteri note : « L’apprentissage automatique est également répandu dans le rendu du débruitage depuis des années dans l’industrie.
Pour Gemini Man , nous avons utilisé un solveur d’apprentissage profond pour nous aider à obtenir une plus grande cohérence avec les activations musculaires de notre système facial. Cela nous a aidés à rationaliser les combinaisons impliquées dans des mouvements complexes sur le visage pour obtenir un résultat plus prévisible. Wētā a changé son système d’animation faciale pour Avatar 2 et a adapté de nouvelles méthodologies d’apprentissage profond.
Letteri déclare : « Notre système d’animation faciale basé sur FACS a donné d’excellents résultats, mais nous avons senti que nous pouvions faire mieux. Au fur et à mesure que nos animateurs et modélisateurs faciaux s’amélioraient, nous avions besoin de systèmes de plus en plus flexibles et complexes pour s’adapter à leur travail. Nous avons donc adopté une approche de réseau neuronal qui nous a permis d’exploiter davantage ce que faisait l’acteur et de cacher une partie de la complexité aux artistes tout en leur donnant plus de contrôle. Nous avons également été en mesure d’obtenir des activations musculaires secondaires plus complexes dès le départ, de sorte que le visage fonctionnait comme un système complet, dans un espace varié donné, un peu comme le visage humain.
Il explique : « Au cours de ce processus de configuration, nous avons utilisé des images rendues pour entraîner le modèle d’apprentissage profond en plus des éléments photographiés. Cela nous a permis de recueillir plus de références de différentes variations et positions que nous ne pouvions en obtenir. Nous pourrions entraîner le système à comprendre un environnement de plateau donné et le placement des personnages dans presque toutes les positions sur le plateau dans un large éventail de poses – ce qui serait peu pratique à faire avec des acteurs sur un plateau de tournage en activité.
« Les pipelines VFX sont en constante évolution, parfois sous l’impulsion des avancées matérielles ou logicielles, parfois grâce à des techniques nouvelles et innovantes. Il n’y a aucune raison de penser que nous ne trouverons pas de nouvelles façons de déployer des flux de travail améliorés par l’IA dans les effets visuels. Donner aux artistes des moyens d’itérer rapidement et d’explorer de nombreux résultats simultanés en même temps peut être extrêmement puissant. Il a également un grand potentiel en tant qu’outil de contrôle de la qualité ou de cohérence, comme de nombreux artistes l’utilisent maintenant. Autocar « L’IA a le potentiel d’être révolutionnaire pour les effets visuels, car les artistes conçoivent et construisent l’avenir », déclare Ben Fischler, directeur de la gestion des produits et de la création de contenu chez Autodesk.
« Internet a pris forme pendant de nombreuses années, et il a fallu du temps pour qu’il fasse partie de notre vie quotidienne, et il en sera de même avec l’IA. Pour l’industrie des effets visuels, il s’agit de l’intégrer dans les flux de travail pour les améliorer. Il ne s’agira pas d’un basculement immédiat, et si certains domaines seront rapides, d’autres prendront plus de temps.
Cela fait plus de deux ans qu’Autodesk a adopté les outils d’IA dans Flame.
« Flame ajoute une pincée d’IA dans le flux de travail d’un artiste et le suralimente de façon spectaculaire. Des processus tels que la rotoscopie, l’élimination des fils et la création de mats complexes sont des processus qui remontent aux origines des effets visuels, lorsque nous faisions les choses de manière optique, et non numérique, et ils demandent toujours beaucoup de main-d’œuvre. Ce sont les processus où un peu d’IA aux bons endroits peut faire beaucoup », explique Fischler.
« Dans le cas de Flame, nous pouvons transformer un processus qui a nécessité des heures de travail d’un artiste en un processus de 20 minutes. »
Autodesk a récemment lancé une version bêta privée de Maya Assist en collaboration avec Microsoft.
« Il a été développé pour les nouveaux utilisateurs de Maya et de l’animation 3D et utilise des invites vocales via ChatGPT pour s’interfacer avec Maya », explique Fischler.
Photos du soleil levant Il y a environ cinq ans, RSP a commencé à collaborer avec l’Australian Institute for Machine Learning (AIML), associé à l’Université d’Adélaïde, sur les moyens d’intégrer les technologies émergentes dans son pipeline d’effets visuels.
John Bastian et Ben Ward, chercheurs postdoctoraux à l’AIML, ont vu le potentiel de l’IA dans la réalisation de films et ont rejoint RSP ; ils dirigent maintenant leur équipe de développement de l’IA avec Troy Tobin.
L’un des nombreux projets qui ont bénéficié de leur travail est Thor : Love and Thunder de Marvel, dans lequel RSP a appliqué des données recueillies à partir d’un bébé humain (le petit-fils de l’ancien PDG de Disney, Bob Chapek) à un bébé en images de synthèse.
En travaillant en tandem avec l’équipe de production du film, ils ont pu « diriger » leur bébé numérique pour qu’il exécute des gestes spécifiques et expose les émotions requises par le scénario.
Selon le producteur VFX senior du film, Ian Cope, cité sur le site Web de RSP, « L’avantage de cette technique par rapport aux méthodes standard de « deep fake » est que la performance découle d’une animation enrichie par une bibliothèque de matériel de référence savante. »
Le look a été affiné au fil de nombreuses itérations pour obtenir un bébé numérique qui semblerait réel au public.
« Le travail que nous faisons n’est pas seulement de l’apprentissage automatique », ajoute Ward, aujourd’hui développeur principal d’apprentissage automatique chez RSP.
« Nos développeurs sont également responsables de l’intégration de nos outils dans le pipeline utilisé par les artistes. Cela signifie que la production, le suivi et la gestion des actifs doivent être fournis aux artistes, tout en leur donnant le contrôle dont ils ont besoin d’un point de vue créatif.
Travaillant ensemble sur plusieurs projets, les équipes d’IA et de compositing ont grandi dans leur compréhension mutuelle.
Après avoir exploré cet espace très tôt, « nous avons beaucoup appris sur la façon dont les deux mondes entrent en collision et sur la façon dont nous pouvons utiliser leurs [AI] outils dans notre environnement de production », observe Robert Beveridge, compositeur en chef de RSP.
« La collaboration s’est améliorée à chaque projet, ce qui nous a aidés à surpasser ce que nous avons fait auparavant. La qualité du travail ne cesse de s’améliorer.
« L’IA et le ML offrent des opportunités passionnantes à nos flux de travail. et nous étudions la meilleure façon de les mettre en œuvre », déclare Paul J. Baaske, responsable de la direction technique de Jellyfish Pictures.
« Par exemple, comment nous pouvons tirer parti de l’IA pour créer une simulation de tissu et de muscle avec une plus grande fidélité.
C’est une avenue vraiment intrigante pour nous.
D’autres domaines sont dans l’imagerie - de l’amélioration du débruitage, des roto-masques, à la création de textures plus rapide.
Mais certains des plus grands gains que nous voyons [are] dans des domaines tels que la gestion des données ou des bibliothèques. Baaske ajoute : « La clé à l’avenir pour les studios sera d’examiner leur production et leurs données à travers le prisme de « comment pouvons-nous apprendre et développer davantage nos modèles internes ? » Le fait de disposer de données historiques pour la formation et de les déployer intelligemment pour obtenir un avantage concurrentiel peut aider à faire la différence et permettre aux artistes de se concentrer davantage sur la création plutôt que d’attendre de longs calculs. Vicon « L’une des façons les plus importantes dont je pense que l’IA va avoir un impact sur la capture de mouvement est la mesure dans laquelle elle va élargir à la fois son application et sa base d’utilisateurs de base », commente David « Ed » Edwards, chef de produit VFX chez Vicon.
« Chaque approche de la capture de mouvement a ses forces et ses faiblesses respectives. Ce que nous avons vu des effets visuels jusqu’à présent – et certainement pendant la prolifération de la production virtuelle – c’est que l’accessibilité technique et l’adéquation à la collaboration sont des forces motrices de l’adoption. Les solutions d’IA sont très prometteuses à cet égard.
Edwards ajoute : « Les exigences et les attentes du public moderne signifient que le contenu doit être produit plus rapidement que jamais et selon des normes constamment élevées. Alors que l’IA devient rapidement omniprésente dans de nombreuses applications, flux de travail et pipelines, elle s’impose déjà comme un rassembleur, autant qu’un outil efficace à part entière.
Studio Lab/Dimension 5 « Je pense qu’avec l’utilisation de l’IA, de nombreux processus seront rationalisés, ce qui nous permettra de voir de multiples variations d’un aspect unique », déclare Ian Messina, directeur de la production virtuelle chez Studio Lab et propriétaire de la société de production en temps réel Dimension 5.
Wesley Messina, directeur de l’IA générative chez Dimension 5, déclare : « Certains pionniers, comme Wonder.ai, repoussent les limites de la technologie en développant des outils capables de transformer n’importe quel acteur en personnage numérique à l’aide de séquences vidéo. Cela élimine le besoin de combinaisons de suivi de mouvement lourdes et donne une image prometteuse de ce qui est à venir dans l’animation.
« Internet a pris forme pendant de nombreuses années, et il a fallu du temps pour qu’il fasse partie de notre vie quotidienne, et il en sera de même avec l’IA. Pour l’industrie des effets visuels, il s’agit de l’intégrer dans les flux de travail pour les améliorer. Il ne s’agira pas d’un basculement immédiat, et si certains domaines seront rapides, d’autres prendront plus de temps.
Perforce et Rod Cope, vice-président de Perforce Software, considèrent que l’IA a un impact important sur la production virtuelle.
Il explique : « D’une part, l’IA va permettre aux équipes créatives de générer beaucoup plus d’actifs artistiques, d’autant plus que les outils d’IA de conversion de texte en 3D deviennent de plus en plus sophistiqués. Ce sera la clé de la production virtuelle et de la prévisualisation. Les producteurs et les directeurs artistiques vont pouvoir expérimenter un plus large éventail d’options, et je pense que cela stimulera leur créativité de bien de nouvelles façons.
Yashar Behzadi, fondateur et PDG de Synthetic World Synthesis AI, estime que les données synthétiques auront un impact transformateur sur la production télévisuelle et cinématographique dans un certain nombre de domaines, tels que les décors et environnements virtuels, la prévisualisation et les storyboards, les personnages et créatures virtuels, ainsi que les effets visuels et la post-production.
Behzadi poursuit : « La vision de Synthesis AI a toujours été de synthétiser le monde. Notre équipe est composée de personnes ayant de l’expérience dans l’animation, la conception de jeux et les effets visuels. Leur expertise dans ce domaine a permis à Synthesis AI de créer et de publier une bibliothèque de plus de 100 000 humains numériques, qui sert de données d’entraînement pour notre projet de conversion de texte en 3D, Synthesis Labs.
En savoir plus sur GenAI « Aujourd’hui, avec l’émergence de modèles et de solutions d’IA générative plus sophistiqués, nous commençons à envisager de nombreuses autres façons de l’utiliser », explique M. Basse de Digital Domain.
« Les outils émergents de l’IA générative, tels que ChatGPT, MidJourney, Stable Diffusion et RunwayML, sont très prometteurs. »
Basse poursuit : « GenAI est vraiment bon pour commencer le processus créatif, générer des idées et des choix. GenAI ne génère pas réellement d’art, il crée des variantes et des choix basés sur l’art antérieur. Mais ce processus peut fournir d’excellents points de départ pour l’art conceptuel. Mais le produit final viendra toujours des artistes humains, car ils sont les seuls à savoir vraiment ce qu’ils veulent. Cela dit, j’ai de grandes attentes quant à l’utilisation de la technologie GenAI dans le storyboard et la prévisualisation. Je pense que nous verrons très bientôt beaucoup de traction avec GenAI dans ces domaines.
Fischler d’Autodesk note : « Avoir la capacité de générer des ressources de haute qualité aurait un impact très important sur les créateurs de contenu en production. mais le défi consiste à rendre ces ressources prêtes pour la production pour le cinéma, la télévision ou les jeux Triple A. Nous voyons des outils potentiellement utiles dans le bas de gamme, mais il est beaucoup plus difficile de faire en sorte que l’IA génère des ressources utiles lorsque vous avez un réalisateur, un directeur créatif et un superviseur d’animation avec une vision créative et une séquence de plans complexe à construire.
Wes Messina ajoute que la technologie de conversion de texte en modèle 3D « pourrait changer la donne, en nous éloignant du travail difficile de partir de zéro dans le développement d’actifs 3D ».
LeDoux affirme : « Cependant, il est important de se rappeler que l’art conceptuel généré par l’IA n’est pas là pour remplacer la créativité humaine. Au lieu de cela, c’est un outil génial qui peut ajouter et améliorer le processus artistique. En utilisant ces technologies d’IA, les artistes peuvent se concentrer sur l’aspect créatif de leur travail et donner vie à la vision du réalisateur plus efficacement, ce qui donne lieu à des productions très attrayantes et visuellement époustouflantes.
Dans l’ensemble , l’IA vous aidera dans de nombreuses tâches.
LeDoux commente : « Si nous divisons l’ensemble entre la préparation, la production et la post-production, puis que nous réfléchissons à tous les aspects des effets visuels pour chacun d’entre eux, vous pouvez vous aider à comprendre toutes les applications. En préparation, il est évident de disposer d’outils génératifs tels que Stable Diffusion pour aider à créer des concept art, mais d’autres outils pour aider à planifier, tels que des modèles de langage pour aider à analyser le script à des fins d’enchères basées sur les effets visuels, ainsi que la planification via le storyboard et la prévisualisation, sont énormes. En production, disposer d’outils pour aider à la gestion des actifs numériques, à l’assemblage et à la création d’actifs pour la production virtuelle permet un gain de temps considérable. En post-production, la liste est infinie, de l’assistance au rotoscope à la correspondance des couleurs en passant par l’aide à l’animation. « Nous pensons que l’IA aura un impact sur l’ensemble de notre flux de travail », déclare M. Basse.
« Il y a tellement de scénarios auxquels nous pouvons penser : la création de modèles 3D avec des invites de texte, la création de rigs complexes et de cycles d’animation, mais nous voyons également des applications potentielles dans la mise en page, l’éclairage, la texture et le lookdev. On s’attend également à ce que l’apprentissage automatique révolutionne la rotoscopie, qui est une partie très laborieuse et fastidieuse de notre flux de travail aujourd’hui.
« L’IA va également avoir un impact sur l’assurance qualité et le flux de travail. Je pense que nous verrons l’IA automatiser certaines des tâches les plus courantes de l’animation 3D, comme l’assemblage et le mappage UV, et l’identification des défauts de rendu - des choses qui prennent du temps mais ne nécessitent pas autant de créativité. L’IA va accélérer ces tâches. Et, comme l’IA permet aux équipes d’aller plus vite, les directeurs exigeront encore plus avec des délais d’exécution plus rapides. Les équipes qui n’adoptent pas l’IA dans leurs flux de travail seront tôt ou tard laissées pour compte.
Les tâches VFX qui bénéficieront de l’IA comprennent également la suppression d’objets, le matchmoving, l’étalonnage des couleurs, la mise à l’échelle et la restauration d’images, selon Behzadi de Synthesis AI.
IA, VR et jeux vidéo Il est facile d’imaginer que l’IA pourrait donner un grand coup de pouce aux jeux vidéo et à la VR en augmentant considérablement l’interactivité et le réalisme.
« En pensant à un autre niveau, je pense que les jeux tels que nous les connaissons vont changer », dit Cope.
Par exemple, « l’IA va ouvrir la porte à des interactions plus naturelles et uniques avec les personnages d’un JdR. Et pourrait même conduire à des expériences de jeu complètement uniques pour chaque joueur et chaque voyage.
Behzadi de Synthesis AI commente : « Les expériences de réalité virtuelle peuvent être considérablement améliorées par l’IA de plusieurs façons, notamment le développement humain numérique, les simulations et la formation améliorées, ainsi que les applications de vision par ordinateur, pour n’en nommer que quelques-unes. »
Behzadi poursuit : « L’IA peut générer des humains numériques réalistes ou des avatars qui peuvent interagir avec les utilisateurs en temps réel. Ces avatars peuvent comprendre et répondre aux gestes, aux expressions faciales et aux commandes vocales des utilisateurs, créant ainsi des interactions plus naturelles et engageantes dans des environnements virtuels. Lorsqu’elle est associée à des techniques de vision par ordinateur, l’IA a un impact puissant sur l’amélioration de la qualité visuelle des expériences de réalité virtuelle, notamment un rendu graphique amélioré, des simulations physiques réalistes, la reconnaissance d’objets et le suivi des mouvements des utilisateurs dans l’environnement virtuel. Ces avancées conduisent finalement à des mondes VR plus époustouflants et immersifs.
La voie à suivre « S’il est vrai que l’IA, dans son essence, est un outil d’automatisation susceptible de déplacer des emplois, les précédents historiques suggèrent que l’automatisation peut également stimuler la création d’emplois dans les secteurs émergents. »
Un regard sur le dernier quart de siècle permet de bien comprendre cette tendance, note-t-il.
« L’industrie des effets visuels a connu une croissance exponentielle, alimentée en grande partie par les clients qui exigent des effets visuels de plus en plus complexes à mesure que la technologie progresse. »
M. LeDoux ajoute que l’IA apportera des améliorations significatives à la qualité et à l’accessibilité des effets visuels, « renforçant ainsi notre capacité de narration et d’expression créative ».
Letteri commente : « Dans le domaine des effets visuels, nous sommes toujours à la recherche de nouvelles façons d’aider le réalisateur à raconter son histoire. Parfois, il s’agit de développer de nouveaux outils qui permettent une plus grande fidélité d’image ou des simulations plus sophistiquées de phénomènes naturels – et parfois, il s’agit de trouver des moyens de faire tout cela plus efficacement.
« Il ne se passe pas un jour sans que nous ne voyions une annonce de nos fournisseurs d’outils ou de nouvelles startups vantant de nouvelles réalisations liées à la création de contenu à l’aide de l’IA et du ML. C’est une période très excitante pour notre industrie. Pour de nombreuses applications, il reste encore beaucoup de travail à faire, mais cette technologie évolue si rapidement que je pense que nous devons mesurer ces avancées majeures en quelques mois, et non en quelques années.