Emo aïe - Audrey Hepburn.

EMO AI : l’intelligence artificielle fait chanter à partir de photographies

Avatar de João Lucas Batista
Développée par le groupe Alibaba, la nouvelle IA surprend par le réalisme de la génération de vidéos de personnes chantant à partir de photographies. Voir des exemples

le nouvellement libéré IA EMO, l'intelligence artificielle du groupe Alibaba, a eu une grande répercussion sur Internet. L'outil produit des vidéos à partir de photographies, faisant chanter à l'avatar des chansons dans différentes langues, avec un réalisme surprenant.

Ce segment de l'IA a fait des progrès significatifs au fil des années, apparaissant auparavant avec la retouche photo, lorsque grâce aux applications, il était possible d'échanger des visages avec quelqu'un, d'ajouter des filtres et d'utiliser d'autres fonctionnalités. Aujourd’hui, la simulation d’actions dans des vidéos suscite un grand intérêt de la part des internautes, principalement en raison du réalisme appliqué à ces contenus.

Qu’est-ce que l’IA EMO ?

Un portrait de femmes aux expressions et coiffures variées, illustrant la technologie d'intelligence artificielle pour la génération de vidéos réalistes.
Comment fonctionne EMO AI. Image : Reproduction/EMO : Emote Portrait Alive

A EMO AI : Emote Portrait vivant est un outil de création de contenu audiovisuel grâce à la diffusion d’audio et de vidéo – ou d’images – ultra-réalistes.

A IA se concentre sur la simulation précise et fidèle des traits du visage du modèle dans des situations imaginables à partir d'une photographie. Il est possible de produire une vidéo musicale à partir de la photographie d'une personne, dans laquelle le personnage peut chanter une chanson populaire, en bougeant les lèvres et les muscles du visage, pour prononcer les paroles correctement avec des poses réalistes.

Selon les développeurs de Institut pour l'informatique intelligente, du groupe Alibaba, les vidéos créées par IA EMO Ils peuvent avoir n'importe quelle durée, en fonction uniquement de la taille du fichier audio inséré pour produire la vidéo.

Comment fonctionne l'IA ?

Basé sur la méthodologie utilisée par les professionnels, le EMO Il lui suffit d’une image pour lui servir de base à la réalisation de la vidéo générée par son intelligence artificielle. Ensuite, vous devez insérer un fichier audio pour que l'outil puisse créer la vidéo avec l'interprétation du personnage, en synchronisant les mouvements des lèvres avec les paroles et en animant la personne, aussi longtemps que dure le fichier audio.

Voir ci-dessous une vidéo utilisant EMO AI

https://www.youtube.com/watch?v=3K5VCQedbT8
Exemples d'utilisation d'EMO AI pour la création vidéo AI. Vidéo : YouTube/AI Drop

La vidéo ci-dessus utilise un dessin animé pour créer une scène simulée par l'IA. Ô IA EMO il a également réussi à produire de manière satisfaisante et convaincante les mouvements du visage et des lèvres du personnage.

Structure des outils d'IA EMO

La méthodologie utilisée pour élaborer le IA EMO a été appliqué précisément dans le but de rechercher des progrès dans la qualité des vidéos créées par l'IA. Les chercheurs ont cherché des moyens alternatifs pour augmenter la qualité du résultat.

Pour cette raison, dans la phase initiale du processus, appelée Encodage de trame, un réseau neuronal appelé RéférenceNet extrait les caractéristiques d'une seule image de référence en simulant les images de mouvement. Ce processus d'encodage constitue la base de la vidéo.

Ensuite, l’audio est incorporé, à l’aide d’un encodeur, et des masques faciaux sont appliqués, ce qui permettra des mouvements faciaux réalistes. Terminer le processus, le mécanisme Réseau dorsal est chargé de préserver l'identité du personnage et d'ajuster la vitesse des mouvements du visage.

Meilleures techniques de génération d'images vidéo à l'aide de l'intelligence artificielle et de l'apprentissage profond.
Phases de production de contenu avec EMO AI. Image : Reproduction/EMO : Emote Portrait Alive

Malgré le processus innovant, les développeurs d'Alibaba rapportent dans leur article scientifique qu'ils ont trouvé des limites dans le modèle. Ils ont cité que le IA EMO la production de contenu prend plus de temps que les autres IA du même segment et, dans certains cas, d'autres parties du corps peuvent apparaître dans la vidéo, comme par exemple les mains du personnage.

La recherche d'IA qui simulent des actions

Avec la compatibilité croissante des IA avec les systèmes d’exploitation existants sur les téléphones portables, la recherche de ces outils a explosé ces dernières années. Actuellement, il est possible de trouver plusieurs options d'application qui changent le visage de l'utilisateur avec un visage célèbre, le vieillissent, le rajeunissent, corrigent les expressions faciales, entre autres fonctionnalités.

Parmi ces possibilités, le deepfake, qui est le résultat d’une correspondance faciale ou de son remplacement à l’aide d’une IA. Cette ressource peut être utilisée à différentes fins, comme humoristiques, politiques ou même pornographiques. Concernant la politique, au Brésil, le TSE a activé l'alerte sur ce problème, prévoyant déjà l'utilisation de deepfake aux élections d'octobre de cette année.

Dans ce cas, le deepfake C'est une assiette pleine pour fausses nouvelles, car ils représentent généralement un candidat dans des situations menteuses ou simulant des discours controversés, dont il n'a jamais parlé, motivés par des intérêts politiques.

Un homme en chemise à motifs tenant une pièce de monnaie ancienne, souriant, et une comparaison de photos côte à côte.
Utilisation deepfake pour changer le visage du garçon de gauche en celui de l'acteur américain Tom Cruise. Image : Reproduction

EMO AI produit des expressions dans plusieurs langues

Un autre obstacle surmonté par les IA, notamment le IA EMO, est la production de vidéos dans différentes langues. Ces technologies comprennent différentes langues, le son de leurs mots et leurs prononciations. Grâce à cela, il est possible de produire du contenu audiovisuel dans de nombreuses langues.

Femme générée par l’IA chantant en chinois. Reproduction/EMO : Emote Portrait Vivant

Découvrez plus de vidéos générées par EMO AI ci-dessous

Le personnage Joker (Joker, 2019) basé sur une image du film, utilisé dans EMO. Vidéo : Reproduction/EMO : Emote Portrait Alive
L'acteur Leonardo DiCaprio chante Eminem en utilisant l'IA. Reproduction : EMO : Emote Portrait Vivant

Fontes: NowadAls, Arxiv, Humanaigc.

Voir aussi:

Revu par Glaucon Vital le 28/2/24.


En savoir plus sur Showmetech

Inscrivez-vous pour recevoir nos dernières actualités par email.

Related posts