L’élargissement des horizons de la capture de mouvement

Avril 15, 2024

Snoop Dogg au studio de capture de mouvement Astro Project à Santa Monica pour son clip « Crip Ya Enthusiasm » utilisant le système Vicon et les gants StretchSense.
(Image reproduite avec l’aimable autorisation de Vicon et Astro Project, LLC)

Les technologies de capture de mouvement, de capture de performance et de vidéo volumétrique progressent rapidement, intégrant davantage l’IA et le ML et se concentrant sur l’amélioration du réalisme, de la précision et de l’accessibilité.
Peter Rabel, Technical Product Manager chez Digital Domain, commente : « La tendance vers les capacités en temps réel est devenue prédominante, permettant un retour d’information immédiat et une intégration dans des environnements virtuels, des jeux vidéo et des événements en direct. En intégrant l’intelligence artificielle et l’apprentissage automatique comme outils pour améliorer davantage les capacités de ces fonctions, cela permettra une analyse et une capture automatisées des mouvements en temps réel, ce qui contribuera à gagner du temps sur le processus, ce qui entraînera des économies de coûts. Il est essentiel pour nous de rester à jour sur les développements récents et les tendances de l’industrie afin de comprendre la trajectoire actuelle de ces technologies de capture à mesure que la technologie continue d’évoluer afin que nous puissions mieux servir nos clients.
Vicon a fait sensation en 2023 avec l’annonce par le SIGGRAPH de Los Angeles du lancement de sa mocap sans marqueur alimentée par l’apprentissage automatique (ML).
La nouvelle est tombée après environ trois ans de recherche et de développement axés sur l’intégration du ML et de l’IA dans la capture de mouvement sans marqueur dans le centre de R&D de Vicon à Oxford, au Royaume-Uni. Vicon a collaboré sur la technologie avec Artanim, l’institut de recherche suisse spécialisé dans la capture de mouvement, et Dreamscape Immersive, la société d’expérience et de technologie VR.
« La capacité de capturer des mouvements sans marqueurs tout en maintenant une exactitude et une précision de pointe est un exploit incroyablement complexe », déclare Mark Finch, directeur de la technologie de Vicon.
« Après une première phase de recherche, nous nous sommes concentrés sur le développement d’algorithmes de capture sans marqueur de classe mondiale, de suivi robuste en temps réel, d’étiquetage et de résolution nécessaires pour faire de cette innovation une réalité. Il s’agissait de notre première étape vers les lancements de futurs produits, qui aboutiront à une plate-forme unique en son genre pour la capture de mouvement sans marqueur.

En haut : Sur le plateau de tournage de She-Hulk : Avocate avec une combinaison de diodes et le système d’échange de visage Charlatan de Digital Domain.
(Photo : Chuck Zlotnick. Avec l’aimable autorisation de Marvel Studios)

Finch poursuit : « Ce que nous avons démontré au SIGGRAPH, c’est la reconnaissance sans marqueur de la forme humaine – à l’aide de prototypes de caméras, de logiciels et d’algorithmes – pour suivre six personnes, avec leur corps entier résolu en temps réel, dans une expérience de réalité virtuelle. Il s’agit entièrement de la nécessité pour les participants de porter un équipement lourd avec des marqueurs de capture de mouvement. Par conséquent, l’expérience VR est plus fluide et plus crédible, car la technologie de capture de mouvement est en grande partie invisible et non invasive.
Finch ajoute : « À propos de la technologie que nous avons présentée, Sylvain Chagué, cofondateur et directeur technique d’Artanim et de Dreamscape, a déclaré : « Obtenir la meilleure possession de corps virtuel et l’immersion dans la réalité virtuelle nécessite à la fois un suivi précis et une très faible latence. Nous avons consacré d’importants efforts de R&D à l’évaluation des performances de calcul des algorithmes de suivi basés sur le ML, à la mise en œuvre et à la mise au point de la solution de suivi multimodal, ainsi qu’à tirer le meilleur parti des capacités de capture de mouvement sans marqueur du corps entier et de suivi du casque VR. ” ROKOKO VISION Basé à Copenhague, Rokoko a fait deux annonces majeures sur le front des produits au cours de l’année écoulée : « Tout d’abord, avec Rokoko Vision, notre solution d’IA de vision qui permet de capturer des mouvements sans combinaison à partir de n’importe quelle caméra. Nous avons publié la première itération principalement pour connaître l’espace et recueillir des informations sur l’utilisation précoce du produit », commente le PDG et fondateur Jakob Balslev.
« Il devient de plus en plus clair pour nous ce dont les utilisateurs ont besoin, et nous sommes ravis de publier plus de mises à jour sur ce front.

Le Coil Pro de Rokoko est l’innovation récente de la société en matière de matériel de capture de mouvement, sans dérive ni occlusion grâce à une fusion de la capture EMF et IMU.
(Image reproduite avec l’aimable autorisation de Rokoko)

Les caméras Primex 120 et Primex 120W d’OptiTrack offrent la plus longue gamme de caméras à marqueurs de la société pour les marqueurs passifs et actifs.
La précision d’OptiTrack avec une plus grande portée permet de très grands volumes de suivi pour une grande variété de scénarios de formation et de simulation, des installations robotiques terrestres ou aériennes extrêmes et des studios de production virtuelle cinématographique plus grands.
(Image reproduite avec l’aimable autorisation d’OptiTrack)

Les caméras Primex d’OptiTrack identifient et suivent rapidement les marqueurs passifs et actifs.
(Image reproduite avec l’aimable autorisation d’OptiTrack)

Il ajoute : « Deuxièmement, nous avons dévoilé notre Coil Pro – la plus grande innovation que nous ayons jamais faite sur le plan matériel – et, à mes yeux, probablement la plus grande innovation jamais réalisée dans le domaine de la capture de mouvement.
Grâce à une fusion de la capture EMF et IMU, le Coil Pro débloque le Saint Graal de la capture de mouvement : pas de dérive et pas d’occlusion.
Avec une position globale sans dérive dans le temps et sans besoin de ligne de visée des solutions optiques, le Coil Pro est le meilleur des deux mondes de la capture [IMU and optical]de mouvement. La plate-forme sous-jacente, nommée Volta Tracking Technology, fusionne EMF et IMU et sera au cœur de toutes nos solutions matérielles de capture de mouvement à l’avenir. DOMAINE NUMÉRIQUE : CHARLATAN Digital Domain développe davantage son logiciel de rendu neuronal d’apprentissage automatique Charlatan (parfois appelé outil d’échange de visage).
« Reconnaissant les dépenses et le temps associés aux méthodes traditionnelles, y compris notre système de mascarade [facial capture] de premier ordre, nous avons développé Charlatan pour introduire l’efficacité et l’abordabilité », commente Rabel.
« Il y a plusieurs années, Charlatan a été créé à l’aide de techniques d’apprentissage automatique. Cette approche innovante consiste à utiliser la photographie réelle du visage d’un individu et à appliquer des améliorations, à la transférer de manière transparente sur le visage d’une autre personne, ou même à manipuler des aspects discrets tels que le vieillissement ou le dé-vieillissement. Récemment, nous avons développé Charlatan 3D, qui fait évoluer cette technologie pour produire une géométrie 3D complète à partir de ce processus, mais à un coût inférieur et dans des conditions de capture plus simples que Masquerade. En substance, Charlatan représente un pas significatif vers la rationalisation de la création d’humains numériques réalistes avec un réalisme inégalé. OPTITRACK : NOUVEAU CAMÉRAS OptiTrack fournit des solutions de suivi dont l’utilisation varie, y compris les studios de jeux AAA, les laboratoires médicaux et les solutions budgétaires pour les consommateurs et les prosommateurs.
En novembre, la société a annoncé ses trois caméras de capture de mouvement les plus avancées ; le PrimeX 120, le PrimeX 120W et le SlimX 120.
« Avec une résolution plus élevée et un champ de vision plus étendu, ces nouveaux ajouts permettent d’élargir les zones de suivi pour une plus grande variété de scénarios de formation et de simulation, ainsi que pour les grands studios de production virtuelle cinématographique », déclare Anthony Lazzaro, directeur principal des logiciels chez OptiTrack.
Les trois caméras, qui sont conçues et fabriquées au siège social d’OptiTrack à Corvallis, dans l’Oregon, offrent leur résolution la plus élevée à ce jour, soit 12 mégapixels.
Avec le PrimeX 120, les clients bénéficient d’un objectif standard de 24 mm, tandis que le PrimeX 120W est livré avec un objectif de 18 mm avec un champ de vision plus large. [And] nous proposons des options d’objectifs de 24 mm ou 18 mm de large avec le Slim X 120.
Lazzaro poursuit : « Nous avons également lancé une version plus informative et intuitive de notre logiciel de capture de mouvement, qui est désormais compatible avec toutes les caméras de capture de mouvement OptiTrack. Motive 3.1 vise à simplifier le suivi de mouvement de haute qualité et à faible latence, en offrant aux utilisateurs des préréglages et un étiquetage faciles à utiliser pour les éléments suivis qui fournissent les meilleures données de mouvement possibles tout en économisant du temps et en éliminant les étapes supplémentaires. Les clients bénéficient également d’une meilleure visibilité sur les problèmes possibles et peuvent résoudre automatiquement les problèmes dans les environnements de suivi les plus difficiles. ÉTIREMENT : MOCAP GANTS Fondée à Auckland en 2012, StretchSense s’est donné pour mission de construire les meilleurs capteurs extensibles au monde pour mesurer confortablement le corps humain.
« En nous appuyant sur notre technologie de capteurs, en 2019, nous avons réorienté l’entreprise pour nous concentrer sur les gants de capture de mouvement pour les studios AAA, les studios indépendants, les streamers, la RV/AR, les spectacles en direct et plus encore », explique Benjamin O’Brien, cofondateur et vice-président des partenariats et des nouveaux marchés de StretchSense.
« Nos gants de studio sont incroyablement discrets, avec une couche de capteur de moins de 1 mm d’épaisseur sur un tissu athlétique respirant et un petit module de transmission », explique O’Brien.
"C’est plus qu’une question de confort et de style ; Cela signifie que nos gants ne vous gênent pas et que vous pouvez continuer à taper, utiliser une souris, tenir un accessoire, utiliser votre téléphone ou simplement prendre une pizza à la porte. Une fois que vous commencez à penser aux applications de réalité mixte, cela devient encore plus critique, car nos gants vous permettent de basculer de manière transparente entre l’interaction avec les espaces virtuels et le monde réel.
O’Brien ajoute : « Notre mission est de démocratiser la capture de mouvement, en permettant aux créateurs de contenu indépendants et aux streamers de créer des histoires et des expériences incroyables et immersives. Pour y parvenir, nous avons un objectif à long terme de ramener nos gants à un véritable niveau de prix pour le consommateur, ce qui ouvrira vraiment l’espace. À 795 $, nous pensons que notre dernier gant StretchSense Studio est le plus grand pas que l’industrie ait jamais fait vers cet objectif ; Il y a moins de deux ans, quelque chose avec des performances similaires aurait coûté bien plus de 5 000 dollars. ARCTURUS ET VOLUMÉTRIQUE VIDÉO Basé à Beverly Hills, Arcturus Studios a été fondé en 2016 par des vétérans de DreamWorks, YouTube, Autodesk, Netflix et d’autres sociétés notables.
« Ensemble, ils ont vu le potentiel de la vidéo volumétrique et ont décidé de travailler ensemble pour piloter son développement », se souvient Piotr Uzarowicz, responsable des partenariats et du marketing chez Arcturus.
« Cela a conduit à la création des outils HoloSuite, composés de HoloEdit – un outil qui peut modifier les performances 3D des artistes enregistrées avec une vidéo volumétrique – et de HoloStream, un logiciel qui peut compresser un fichier vidéo volumétrique terminé et le diffuser sur n’importe quel appareil 2D ou 3D, même si le signal à large bande est instable. Ensemble, HoloSuite a permis d’utiliser la vidéo volumétrique pour tout, du commerce électronique aux projets de réalité augmentée, en passant par la production virtuelle et plus encore.
Uzarowicz poursuit : « Arcturus a repris l’activité Mixed Reality Capture Studios (MRCS) de Microsoft [in 2023], y compris le développement de ce système de capture – le plus sophistiqué au monde – ainsi que les droits de maintenir et de fournir des licences MRCS aux studios du monde entier. Cela a placé Arcturus dans une position unique où il se développe maintenant pour toutes les étapes de la vidéo volumétrique, de la capture et du montage jusqu’à la distribution finale. « L’un de nos objectifs a toujours été de rendre la vidéo volumétrique plus accessible. Nous étudions de nouvelles façons de faciliter la capture de vidéos volumétriques à l’aide d’un nombre réduit de caméras, notamment l’utilisation de l’IA et de l’apprentissage automatique. Grâce à la technologie MRCS et à nos licenciés, nous travaillons avec certains des meilleurs et des plus créatifs créateurs de contenu au monde pour trouver où la technologie peut évoluer et améliorer l’expérience de production », commente M. Uzarowicz. « Nous venons de lancer un nouveau codec vidéo appelé vidéo volumétrique accélérée (AVV) qui permet d’ajouter plus de caractères volumétriques à un environnement numérique. Avec la technologie MRCS, la qualité d’une performance capturée est meilleure que jamais. La vidéo volumétrique est en constante évolution », ajoute-t-il.

Le logiciel de capture de mouvement avancé Motive 3.1 d’OptiTrack peut être associé à n’importe quelle caméra de capture de mouvement d’OptiTrack, y compris les séries haut de gamme PrimeX, Slim ou Flex à bas prix.
Motive 3.1 offre également des jeux de marqueurs entraînés, une fusion de capteurs améliorée et des paramètres prédéfinis.
(Image reproduite avec l’aimable autorisation d’OptiTrack)

StretchSense fabrique des gants de capture de mouvement pour les grands studios et les studios indépendants, les streamers, la VR/AR et les spectacles en direct.
(Image reproduite avec l’aimable autorisation de StretchSense)

Les gants de capture de mouvement de StretchSense sont discrets, avec une couche de capteur de moins de 1 mm d’épaisseur sur un tissu athlétique respirant et un petit module de transmission.
Le Studio Glove de StretchSense, d’une valeur de 795 $, est un pas vers l’objectif de l’entreprise de réduire ses gants à un véritable prix pour le consommateur.
(Image reproduite avec l’aimable autorisation de StretchSense)

« La tendance vers les capacités en temps réel est devenue prégnante, permettant un retour d’information immédiat et une intégration dans des environnements virtuels, des jeux vidéo et des événements en direct. À mesure que nous intégrons l’intelligence artificielle et l’apprentissage automatique en tant qu’outils pour améliorer davantage les capacités de ces fonctions, cela permettra une analyse et une capture automatisées des mouvements en temps réel, ce qui permettra de gagner du temps sur le processus, ce qui permettra de réaliser des économies.

Arcturus a repris l’activité Mixed Reality Capture Studios (MRCS) de Microsoft en 2023, y compris le développement du système de capture, ainsi que les droits de maintenance et de fourniture de licences MRCS aux studios du monde entier.
Arcturus développe également désormais pour toutes les étapes de la vidéo volumétrique.
(Image reproduite avec l’aimable autorisation d’Arcturus)

Les outils HoloSuite d’Arcturus se composent de HoloEdit – un outil qui peut modifier les performances 3D des artistes enregistrés avec une vidéo volumétrique – et de HoloStream, un logiciel qui peut compresser un fichier vidéo volumétrique terminé et le diffuser sur n’importe quel appareil 2D ou 3D, même si le signal à large bande est instable.
Avec HoloSuite, il est possible d’utiliser la vidéo volumétrique pour le commerce électronique, les projets AR et la production virtuelle.
(Image reproduite avec l’aimable autorisation d’Arcturus)

Move AI a annoncé la sortie officielle d’une application de capture de mouvement à caméra unique, Move One, a révélé la société fin novembre.
« L’application est maintenant disponible pour les animateurs et les créanciers qui cherchent à apporter un mouvement humain réaliste à leurs personnages 3D », a déclaré la société.
« Move AI facilite la capture et la création d’animations 3D. » IA/ML « Arcturus expérimente actuellement l’IA et l’apprentissage automatique de plusieurs manières. Depuis le moment où nous avons été fondés, l’un de nos principaux objectifs a toujours été de rendre la vidéo volumétrique plus accessible, et l’IA peut nous aider à le faire de différentes manières », commente Uzarowicz.
« Entre autres choses, l’un des domaines sur lesquels nous nous concentrons actuellement dans notre R&D est l’utilisation de l’IA pour nous aider à capturer le même niveau de qualité – ou mieux – que nous pouvons actuellement capturer, mais en utilisant moins d’appareils photo. L’une des choses qui font de notre technologie MRCS la meilleure au monde est le logiciel qui convertit les multiples enregistrements capturés en un seul fichier 3D. Avec l’IA, nous espérons améliorer ce processus.
En ce qui concerne l’IA/ML, M. O’Brien déclare : « Nous constatons que de nombreuses entreprises utilisent la capture de mouvement pour créer leurs propres bases de données propriétaires afin d’entraîner ou de régler des modèles d’IA générative, et nous examinons comment nous pouvons nous en inspirer.
Enfin, nous investissons nous-mêmes en permanence dans le machine learning pour améliorer la qualité des données [of] nos produits. « Compte tenu de notre expérience de l’apprentissage automatique, nous considérons la génération IA comme un outil comme un autre dans notre boîte à outils, nous permettant de créer efficacement des résultats artistiquement agréables à l’appui de l’histoire », explique Rabel de Digital Domains. « Nous avons constaté que la combinaison d’outils puissants, tels que l’apprentissage automatique et l’IA, avec le talent créatif de nos artistes produit les performances photoréalistes, racontables, crédibles et réalistes que nous recherchons. Nous pensons que les nuances de la performance d’un acteur, combinées à nos outils d’IA et d’apprentissage automatique, sont essentielles pour obtenir des résultats photoréalistes capables de captiver un public et de traverser la vallée de l’étrange. « OptiTrack utilise déjà des algorithmes de ML pour obtenir des solutions optimales pour des choses comme l’étalonnage continu et les jeux de marqueurs entraînés. L’étalonnage continu prend des objets visibles existants dans une scène, c’est-à-dire des marqueurs, et utilise ces données pour déterminer comment effectuer de petits ajustements afin de résoudre les problèmes d’étalonnage liés aux bosses, à la chaleur ou à l’erreur humaine. Les jeux de marqueurs entraînés vous permettent d’entrer des données de marqueur dans un algorithme pour créer un modèle capable de suivre des objets qui n’étaient auparavant pas traçables, tels que des trampolines, des cordes à sauter et d’autres objets non rigides. « Les progrès de l’IA et du ML continueront de façonner la façon dont les objets sont suivis à l’avenir. » Balslev de Rokoko note : « L’IA/ML va fondamentalement changer l’espace de capture de mouvement. Les outils de conversion de texte en mouvement émergent et mûrissent et finiront par complètement perturber l’espace de stock des places de marché et des bibliothèques en ligne. Ces outils ne pourront cependant pas remplacer une capture de mouvement personnalisée qui nécessite une action et un timing précis.

Notre mission est de démocratiser la capture de mouvement, en permettant aux créateurs de contenu indépendants et aux streamers de créer des histoires et des expériences incroyables et immersives.
Pour y parvenir, nous avons un objectif à long terme de ramener nos gants à un véritable niveau de prix pour le consommateur, ce qui ouvrira vraiment l’espace.
À 795 $, nous pensons que notre dernier gant StretchSense Studio est le plus grand pas que l’industrie ait jamais fait vers cet objectif ; il y a moins de deux ans, quelque chose avec des performances similaires aurait coûté bien plus de 5 000 $. » —Benjamin O’Brien, cofondateur et vice-président des partenariats et des nouveaux marchés, StretchSense

Move AI propose une application de capture de mouvement à caméra unique, Move One, pour les animateurs qui cherchent à apporter des mouvements humains réalistes à leurs personnages 3D, ce qui facilite la capture et la création d’animations 3D.
(Images reproduites avec l’aimable autorisation de Move AI)

VR ET MOCAP « Ensemble, nous [Vicon and Dreamscape Immersive] sommes en train de déterminer jusqu’où la mocap sans marqueur peut aller pour offrir une aventure plus réaliste que toute autre expérience VR immersive en permettant plus de mouvements et d’exploration fluides avec encore moins d’équipement pour l’utilisateur », commente Finch.
« Dreamscape a déclaré qu’il attendait depuis longtemps le moment où markerless pourrait passer du concept au produit, où la technologie pourrait prendre en charge la précision requise pour réaliser son incroyable potentiel. Nous testons ce potentiel ensemble maintenant.
Finch ajoute : « Il est remarquable de voir les premières réactions des gens à la réalité virtuelle lorsqu’ils sont complètement immergés. La frontière entre la réalité fantastique et la réalité s’estompe au fur et à mesure que vous avez de liberté dans un espace VR, ce qui est réduit lorsqu’un utilisateur est attaché et qu’il ressent la traction du câble ou sait qu’il porte un sac à dos.
Il poursuit : « Il y a aussi l’élément d’expérience client qui est un moteur central dans tout cela. L’expérience des gens avec markerless est un grand moment wow. Markerless va conduire à plus de magie – plus de wow.
Lazzaro explique : « Mocap est utilisé dans toutes sortes d’applications VR et AR.
En règle générale, les systèmes domestiques utilisent ce qu’on appelle le suivi de l’intérieur vers l’extérieur pour qu’un écran [HMD] monté sur la tête suive le monde autour d’un utilisateur. Cela fonctionne très bien pour le suivi des casques de réalité virtuelle et des manettes, mais ne peut pas être utilisé pour voir d’autres personnes porter des casques de réalité virtuelle. OptiTrack utilise une approche appelée suivi de l’extérieur vers l’intérieur, qui consiste à suivre le casque de visualisation, les contrôleurs et les accessoires à l’aide de caméras externes. Cela permet aux utilisateurs de créer des expériences de réalité virtuelle basées sur la localisation, dans lesquelles plusieurs personnes peuvent vivre une expérience ensemble ou les ingénieurs peuvent travailler sur des conceptions en réalité virtuelle en groupe. PERSPECTIVE
« Nous pensons que ces marchés [la capture de mouvement, la capture de performance et la vidéo volumétrique] seront tous modifiés avec l’augmentation continue de l’accessibilité », commente O’Brien de StretchSense. Vous pouvez désormais effectuer une capture de mouvement complète pour moins que le coût d’un nouvel iPhone, et la capture volumétrique de base peut désormais être obtenue gratuitement sur ce même iPhone. Cela signifie différentes choses pour différents marchés : sur un grand studio AAA, vous allez voir la mocap se produire sur tout le monde tout le temps, et aussi sur des projets plus ambitieux qui ont plus de contenu animé que jamais auparavant. Pour les créateurs indépendants, les coûts financiers liés à l’entrée dans la mocap diminuent afin que davantage de personnes puissent rejoindre l’espace. Enfin, il y a des millions de streamers dans le monde entier qui trouvent de nouvelles façons de se connecter avec leur communauté et de gagner de l’argent tout en le faisant en entrant dans les mondes virtuels. « Mocap a un bel avenir devant lui sur une variété de marchés », déclare M. Lazzaro d’OptiTrack. « Cela inclut, mais sans s’y limiter, les films, les jeux vidéo, les applications médicales, la robotique, la mesure et la réalité virtuelle. Les techniques de capture de mouvement sont également de plus en plus courantes avec les V-Tubers et d’autres applications prosommatrices.