Commercialisation de l’intelligence artificielle : usage en technologie, dans l’industrie et dans le monde des affaires
Les avancées de l’intelligence artificielle (IA) ne semblent pas devoir ralentir et de nouvelles capacités technologiques apparaissent à un rythme qui rend difficile d’imaginer ce qui pourrait bientôt transformer en profondeur la vie quotidienne et la gestion des affaires et ce qui pourrait devenir obsolète. Les entreprises technologiques comme OpenAI, Google, Microsoft, Meta, NVIDIA, Apple et Adobe investissent fortement dans la recherche-développement et intègrent les fonctions novatrices faisant appel à l’IA à leurs produits aussi vite que possible, pour ne manquer aucune occasion de créer une rupture avec le passé.
Les débats actuels sur l’IA concernent principalement l’IA générative et les produits faisant appel à un transformateur, comme ChatGPT ou GPT-4. Ces technologies sont intégrées à des moteurs de recherche comme Bing (bing.com), tandis que des quantités phénoménales d’images synthétisées par l’IA grâce à des modèles de diffusion circulent sur les médias sociaux. L’IA générative, quand elle est utilisée pour générer des contenus, englobe la création et la manipulation d’images, de vidéos, d’enregistrements sonores et même de contenus en trois dimensions (3D). Tous ces produits peuvent être générés à partir de données d’entrée (textes, images, sons, etc.) ou non (bruit aléatoire).
Les activités et les occasions commerciales dérivées de l’IA sont sans limite et concernent presque tous les secteurs d’activités (télécommunications, santé, transport, éducation, énergie, divertissement, etc.). Le présent article met l’accent sur ce qui suit :
- la commercialisation récente des principales technologies d’IA générative permettant de synthétiser des contenus (ce qui est réel et ce qui ne l’est pas);
- les nouvelles capacités technologiques et les produits qui pourraient créer une rupture à l’avenir.
Les hypertrucages, des contenus synthétiques encore inoffensifs
Depuis l’apparition de ce qu’on appelle les technologies d’hypertrucage, le public se préoccupe des risques qu’elles présentent sur le plan de la désinformation, de la fraude et du harcèlement, surtout qu’elles ont été largement adoptées pour créer de la pornographie non consensuelle. Ces technologies permettent de synthétiser des contenus, souvent à l’aide de l’IA générative, pour manipuler des sujets humains dans une vidéo (par exemple par le remplacement ou la manipulation de visages, ou le doublage). Le risque qu’elles soient utilisées à des fins malveillantes est particulièrement palpable, parce qu’elles peuvent générer des contenus extrêmement convaincants (résultats que seuls des studios professionnels d’effets spéciaux pouvaient obtenir auparavant), donc faire faire et dire n’importe quoi à des gens sur des vidéos. De plus, elles sont accessibles à tout le monde, car il est facile de les apprivoiser et elles ne nécessitent aucune compétence technique.
Bien que les technologies employées pour manipuler des contenus aient constamment progressé, les hypertrucages en tant que tels semblent relativement anodins, donc pas aussi catastrophiques que de nombreux experts l’avaient prévu. Ils ont été utilisés dans des cas de fraude et de harcèlement en ligne, dans le contexte d’élections politiques ou par des activistes russes au cours de la guerre en Ukraine, mais jusqu’ici, ils n’ont été un outil de désinformation efficace (surtout par rapport aux fausses nouvelles en général). Bon nombre des hypertrucages (audio et vidéo) qui circulent sur Internet sont créés par des personnes qui ne sont pas expertes, donc même s’ils sont impressionnants, ils paraissent toujours artificiels et il n’y a pas besoin d’algorithmes de pointe pour les détecter.
Élaboration de produits à partir de l’IA générative
Applications mobiles, filtres de réalité augmentée et vidéos sur les médias sociaux
Outre certaines applications mobiles et certains filtres de réalité augmentée tenant du gimmick et du divertissement (Snap, TikTok, etc.), les technologies d’hypertrucage peuvent ne pas sembler avoir d’utilisation plus profonde que la manipulation de vidéos et l’ajout de nouveaux effets visuels aux publications sur les réseaux sociaux. Les outils les plus communs servent à incorporer le visage d’un usager dans un extrait vidéo (par exemple Zao, Reface) et à remplacer le visage d’un utilisateur par celui d’une célébrité (Impressions.ai). Pour utiliser le premier, il suffit de téléverser une seule photo et de choisir une vidéo parmi une sélection. Pour le deuxième, il faut téléverser une vidéo et sélectionner le modèle préentraîné d’une célébrité. La réinterprétation d’une scène avec un autre visage grâce à une technique appelée « first order motion » (mouvement de premier ordre) gagne également en popularité : le portrait choisi arbitrairement d’une personne est téléversé et la scène immédiatement rejouée. Ainsi, les internautes peuvent créer des vidéos virales de personnalités politiques qui chantent ou animer les photos de personnes disparues (par exemple, DeepNostalgia, MyHeritage).
La demande de nouveaux outils d’expression personnelle plus impressionnants incite la recherche universitaire et commerciale à repousser les limites en matière de synthèse de contenus (par exemple pour augmenter la résolution des produits, offrir des services en temps réel, procurer plus de contrôle aux usagers, éliminer des artéfacts ou améliorer l’accessibilité des outils). Cela a permis d’élaborer de nouveaux filtres plus perfectionnés (qui permettent de rajeunir les sujets, de les faire changer de genre ou de leur donner l’apparence de personnages de dessins animés) et de créer des algorithmes offrant des modalités d’entrée novatrices (réinterprétation d’une scène à partir d’une seule image, entrée de consignes par texte, avatars photoréalistes tirés de vidéos, etc.).
Assistants virtuels, vidéos de marketing et outils de traduction universelle
Bien que les personnages numériques soient essentiels à de nombreuses applications de divertissement, d’autres secteurs commerciaux ont étudié la possibilité de les employer pour améliorer, automatiser et élargir leurs services à l’aide de l’IA générative. Plusieurs sociétés ont élaboré des assistants virtuels humanoïdes (par exemple Soul Machines ou Uneeq), mais les consommateurs n’en sont pas friands en raison de leur apparence, qui les place dans la « vallée de l’improbable » (nom donné à l’inconfort ressenti face à des visages créés par ordinateur imparfaits) Note de bas de page 118,Note de bas de page 119. Malgré des avancées technologiques dans l’utilisation de processeurs graphiques (par exemple, Epic Games/MetalHumans, unrealengine.com) ou de l’IA générative pour améliorer le photoréalisme de ces avatars (par exemple, Samsung Neon, Pinscreen, etc.), les assistants virtuels peinent toujours à remplacer les êtres humains. Leurs réactions sont encore trop simplistes et leur voix et les expressions de leur visage manquent souvent d’émotion et d’empathie.
Cependant, compte tenu des récents progrès accomplis en matière de grands modèles linguistiques (LLM) comme ChatGPT et des dernières études sur la synthèse de mouvements, l’adoption massive d’agents humanoïdes faisant appel à l’IA très convaincants et réalistes pourrait être plus proche que jamais (deux ou trois ans), surtout si ces agents peuvent interagir en temps réel. Pour le moment, plusieurs jeunes pousses (comme Synthesia ou Colossyan) se penchent sur l’utilisation de vidéos créées de toutes pièces à partir d’enregistrements de véritables êtres humains, sans interaction, pour produire des films de marketing ou de formation à grande échelle pour des entreprises. Il est possible de choisir un acteur ou une actrice et une voix sur une interface Web pour produire du contenu vidéo automatiquement sur un serveur à partir d’un texte. Ces solutions font généralement appel à une application permettant de passer du texte écrit au texte dit (application fournie par un tiers ou « maison », qui permet de personnaliser les voix) et d’un générateur de vidéos à partir d’entrées vocales, entraîné à l’aide d’un extrait sonore et d’images d’une vidéo (par exemple, pour Synthesia, il faut fournir 10 minutes de vidéo d’un acteur lisant son texte face à la caméra, dans un studio bien éclairé).
Ces méthodes sont plus perfectionnées que le populaire algorithme wav2lip et donnent des résultats de meilleure qualité, avec une plus haute résolution. Des technologies semblables ont aussi été adoptées par la société chinoise Tencent et par des entreprises coréennes comme DeepBrain pour créer des lecteurs et lectrices de nouvelles et des supports de marketing à grande échelle. Tencent, par exemple, ne facture que 145 $ US pour chaque sujet (moitié du corps ou corps complet) et prend en charge à la fois l’anglais et le chinois. Malgré leur grande fidélité, les résultats obtenus à partir de la voix manquent toujours de fluidité pendant les conversations, donc leur adoption reste limitée.
Google a récemment annoncé à sa conférence I/O le lancement d’un service de traduction universelle pour entreprises appelé « Universal Translator », qui permet aux créateurs de contenu éducatif de traduire leurs vidéos dans de nombreuses langues. À partir de la traduction de ce qui est dit, cette application crée les mouvements des lèvres correspondants dans les vidéos. Cette traduction vocale (interprétation) est également produite à l’aide d’un modèle d’interprétation générative, qui imite la voix et le ton d’un orateur dans une autre langue. Pour l’instant, cette solution n’est offerte qu’à un nombre restreint de créateurs de contenus habilités (comme l’Université d’État de l’Arizona), ce qui peut en limiter les utilisations malveillantes.
Réduction des coûts et des délais pour les effets spéciaux et le doublage à Hollywood
Que ce soit pour générer des cascades numériques, ramener à la vie des vedettes décédées ou rajeunir un acteur ou une actrice, les effets spéciaux créés par ordinateur ont été largement utilisés dans certaines des superproductions les plus mémorables (par exemple Star Wars, Dangereux 7, Terminator : Sombre destin et L’étrange histoire de Benjamin Button). Cependant, ces effets sont généralement réalisés par des studios spécialisés de pointe (Industrial Light & Magic, Weta Digital, MPC, Framestore, etc.), coûtent des millions de dollars et nécessitent des mois de travail pour quelques secondes de film. Les effets spéciaux sur les visages humains sont particulièrement onéreux et difficiles à réaliser à cause de la « vallée de l’improbable ».
Quand des applications libres d’accès permettant de créer des hypertrucages (comme les GAN utilisés pour remplacer les visages et Deep Face Lab) ont été rendues disponibles sur Internet, les amateurs et les artistes travaillant à partir d’hypertrucages ont commencé à créer de courtes vidéos divertissantes, dans lesquelles ils intervertissaient des célébrités. Même s’il était possible de générer des hypertrucages très convaincants, leur résolution était toujours trop basse pour les productions cinématographiques. Cependant, ces méthodes ont rapidement attiré l’attention de producteurs d’effets spéciaux, qui y ont vu un outil pouvant permettre de perfectionner leurs méthodes conventionnelles pour leur faire économiser et améliorer la narration. Certains, comme Industrial Light & Magic (ILM), ont étudié l’utilisation de technologies d’hypertrucage pour rajeunir des acteurs (comme Mark Hamill dans Star Wars ou Harrison Ford, dans Indiana Jones 5). Pour ce faire, ils ont remplacé les visages des acteurs âgés ou de leurs cascadeurs par des images neuronales produites à partir de vidéos de ces mêmes acteurs plus jeunes et les ont combinées à des modèles 3D et à des techniques de compositing vidéo.
Toutes les jeunes pousses dans le domaine de l’IA, comme Pinscreen et Metaphysic, offrent des solutions complètes de création d’effets spéciaux à l’aide de l’IA qui permettent de substituer des visages dans les productions cinématographiques. Metaphysic est connue pour ses hypertrucages mettant en scène Tom Cruise, qui circulent sur TikTok, et pour avoir implanté le visage d’Elvis dans un extrait d’America’s Got Talent.
Pinscreen a innové en élaborant un certain nombre de techniques d’animation neuronale des visages reposant sur des GAN (notamment PaGAN, pour « photoreal avatar GAN », soit un GAN permettant de générer des avatars photoréalistes), à l’origine conçues pour améliorer le réalisme d’avatars en 3D destinés à des interactions en 3D ou à des métavers. En 2022, la société a commencé à se tourner vers les effets spéciaux grâce à un partenariat avec Netflix et Amazon Studios. Elle s’est ainsi mise à travailler sur plusieurs séries télévisées à grand retentissement (comme Manifest), des superproductions (comme La petite Nemo et le monde des rêves) et des publicités (pour Nike, Balenciaga, etc.) faisant appel à l’IA générative. Les services d’effets spéciaux faisant appel à l’IA comprennent le traitement de bout en bout du remplacement de visages, l’animation des visages, le vieillissement et le rajeunissement, ainsi que le doublage. Le principal avantage de Pinscreen est de pouvoir travailler sur de très courtes scènes de films et de produire des contenus haute-fidélité, 4K à grande gamme dynamique, ce qui permet de traiter des prises de vue en gros plan, des points de vue extrêmement latéraux et des éclairages spectaculaires et changeants. Ce processus nécessite une amplification de données au moyen de GAN spécialisés et des procédures d’amélioration faisant appel à l’IA pour générer des données inédites à partir des quelques images collectées dans les films, ainsi qu’un renforcement de l’architecture en vue de créer des vidéos haute résolution cohérentes sur le plan temporel.
Malgré la demande croissante de services d’effets spéciaux faisant appel à l’IA, comme le remplacement de visages, le vieillissement et le rajeunissement, leur utilisation reste relativement marginale et varient beaucoup d’une émission à l’autre. Elle pourrait devenir importante dans le marché du doublage des films et des émissions de télévision, car elle permettrait de regarder ces productions dans n’importe quelle langue avec les mouvements des lèvres des acteurs parfaitement synchronisés avec ce qu’ils ou elles disent. Les longs métrages sont bien plus compliqués à traiter que les vidéos qui sont tournées dans un cadre contrôlé (comme la lecture de nouvelles ou le tournage de supports de marketing ou de formation), en raison de la complexité des scènes, du manque de données d’entraînement et des critères de qualité extrêmement exigeants du cinéma (image 4K à grande gamme dynamique).
En 2022, Pinscreen est devenue la première société au monde à doubler intégralement un long métrage complet à l’aide de son système exclusif reposant sur l’IA générative, soit le film The Champion (traduit de l’allemand et du polonais vers l’anglais). Pour ce faire, elle a combiné l’IA générative de pointe à un processus intégré d’effets spéciaux pour doubler ce film de 90 minutes en moins de trois mois. Son approche permet de traiter un film déjà tourné et ne nécessite que des enregistrements vidéo supplémentaires des acteurs jouant le doublage. D’autres intervenants sur le marché des effets spéciaux faisant appel à l’IA, comme Flawless.ai, essaient d’entrer sur le marché du doublage, mais disposent de moyens techniques limités : ils ne peuvent produire que de nouvelles animations des visages à partir d’enregistrements vocaux, au lieu de travailler à partir de vidéos. Ils ont effectué le doublage de certains extraits vidéo, mais pas de films complets.
Production d’images à partir d’invites textuelles grâce aux modèles de diffusion
Grâce à des percées comme Dall-E d’OpenAI et aux dernières avancées des modèles de diffusion avec transformateur, comme Stable Diffusion, il est maintenant possible de produire des images plus efficacement et de façon plus poussée qu’avec les méthodes habituelles faisant appel aux GAN pour ce qui est de la qualité, de la résolution et de la diversité. Cette dernière propriété est particulièrement importante, car elle est très efficace pour synthétiser des images à partir de textes : les utilisateurs entrent les invites textuelles de leur choix, et le modèle synthétise une image correspondant précisément à cette invite. La fonction d’invite textuelle repose généralement sur l’utilisation d’un encodeur de type « CLIP » capable de faire correspondre l’invite à une incrustation textuelle, qui est ensuite utilisée comme condition pour créer une image par un processus d’élimination progressive du bruit (le générateur), habituellement grâce à l’utilisation répétée d’un réseau de neurones profond (RNP) qui fonctionne à l’aide d’une architecture U-Net permettant de générer des images à partir d’images.
Bien qu’il soit plus simple et plus fiable que celui des GAN, l’entraînement des modèles de diffusion nécessite des ressources considérables : généralement des semaines d’entraînement et des centaines de processeurs graphiques hautement performants (de type A100). Par conséquent, ces modèles sont souvent entraînés par des sociétés disposant de grandes quantités de ces processeurs (comme OpenAI, Stability.ai ou Google). Les laboratoires universitaires et les sociétés de plus petite envergure se contentent de modèles préentraînés qu’ils adaptent à leurs besoins. Les dernières applications commerciales, et les plus populaires, sont notamment Dall-E2, Midjourney (robot sur Discord), la solution offerte par Stability.ai (Dream Studio, une interface Web) et les interfaces de protocoles d’application. Bien que ces outils permettent de produire des images incroyablement réalistes, celles-ci ont toujours tendance à comporter des artéfacts visibles et il n’est pas encore possible de contrôler les menus détails des images synthétisées. Un certain degré de contrôle a récemment été obtenu au moyen d’esquisses ou de grandes lignes abstraites des images d’origine (comme ControlNet), mais les images ainsi engendrées comportent toujours des détails ou des aspects imprévisibles. En conséquence, les méthodes reposant sur la diffusion ne peuvent pas encore générer de vidéos ayant la qualité requise pour des productions professionnelles, car il n’est pas facile de les contrôler et d’en garantir la cohérence sur le plan temporel.
Résumé et possibilités futures
Les capacités de l’IA générative à synthétiser des contenus (images, vidéos et sons) sont en constante évolution. Les images ainsi produites sont de meilleure qualité (plus haute résolution, moins d’artéfacts et résultats plus réalistes sur le plan sémantique) et plus variées, ce qui permet d’utiliser des invites textuelles en langage naturel à l’entrée. Comme à l’avènement des GAN, les professionnels de la recherche s’efforcent d’offrir un meilleur contrôle, des résultats plus prévisibles et des images cohérentes sur le plan temporel pour les vidéos, ainsi que la possibilité de gérer d’autres modalités, comme le contenu neuronal en 3D. En raison de l’accessibilité de cette technologie et de sa capacité à produire du contenu convaincant, la population s’est inquiétée de ce qu’elle puisse être utilisée à des fins malveillantes. Pour l’instant, ces technologies de synthèse de contenus et les hypertrucages n’ont pas été exploités largement à des fins offensives, même s’il s’agit d’une menace.
Ces prochaines années, la société devrait connaître d’autres percées technologiques dans le domaine de l’IA générative. Ces percées ouvriront de nouvelles perspectives commerciales, notamment plusieurs services généraux de création de vidéos en ligne (par exemple, un YouTube pouvant produire la vidéo souhaitée immédiatement à partir de n’importe quelle invite textuelle), des vidéos pleinement interactives en temps réel (comme des publicités capables d’interagir avec l’auditoire en temps réel), ainsi que des environnements totalement immersifs et photoréalistes générés par l’IA pour des métavers. Compte tenu des nouveaux casques de réalité augmentée ou de réalité virtuelle dont la sortie a été annoncée, comme le Vision Pro d’Apple et le MetaQuest 3 de Meta, la demande de contenu 3D sophistiqué devrait croître et l’IA générative jouer un rôle clé dans la création de contenu.
Détails de la page
- Date de modification :