Sommaire
le nouvellement libéré IA EMO, l'intelligence artificielle du groupe Alibaba, a eu une grande répercussion sur Internet. L'outil produit des vidéos à partir de photographies, faisant chanter à l'avatar des chansons dans différentes langues, avec un réalisme surprenant.
Ce segment de l'IA a fait des progrès significatifs au fil des années, apparaissant auparavant avec la retouche photo, lorsque grâce aux applications, il était possible d'échanger des visages avec quelqu'un, d'ajouter des filtres et d'utiliser d'autres fonctionnalités. Aujourd’hui, la simulation d’actions dans des vidéos suscite un grand intérêt de la part des internautes, principalement en raison du réalisme appliqué à ces contenus.
Qu’est-ce que l’IA EMO ?
A EMO AI : Emote Portrait vivant est un outil de création de contenu audiovisuel grâce à la diffusion d’audio et de vidéo – ou d’images – ultra-réalistes.
A IA se concentre sur la simulation précise et fidèle des traits du visage du modèle dans des situations imaginables à partir d'une photographie. Il est possible de produire une vidéo musicale à partir de la photographie d'une personne, dans laquelle le personnage peut chanter une chanson populaire, en bougeant les lèvres et les muscles du visage, pour prononcer les paroles correctement avec des poses réalistes.
Selon les développeurs de Institut pour l'informatique intelligente, du groupe Alibaba, les vidéos créées par IA EMO Ils peuvent avoir n'importe quelle durée, en fonction uniquement de la taille du fichier audio inséré pour produire la vidéo.
Comment fonctionne l'IA ?
Basé sur la méthodologie utilisée par les professionnels, le EMO Il lui suffit d’une image pour lui servir de base à la réalisation de la vidéo générée par son intelligence artificielle. Ensuite, vous devez insérer un fichier audio pour que l'outil puisse créer la vidéo avec l'interprétation du personnage, en synchronisant les mouvements des lèvres avec les paroles et en animant la personne, aussi longtemps que dure le fichier audio.
Voir ci-dessous une vidéo utilisant EMO AI
La vidéo ci-dessus utilise un dessin animé pour créer une scène simulée par l'IA. Ô IA EMO il a également réussi à produire de manière satisfaisante et convaincante les mouvements du visage et des lèvres du personnage.
Structure des outils d'IA EMO
La méthodologie utilisée pour élaborer le IA EMO a été appliqué précisément dans le but de rechercher des progrès dans la qualité des vidéos créées par l'IA. Les chercheurs ont cherché des moyens alternatifs pour augmenter la qualité du résultat.
Pour cette raison, dans la phase initiale du processus, appelée Encodage de trame, un réseau neuronal appelé RéférenceNet extrait les caractéristiques d'une seule image de référence en simulant les images de mouvement. Ce processus d'encodage constitue la base de la vidéo.
Ensuite, l’audio est incorporé, à l’aide d’un encodeur, et des masques faciaux sont appliqués, ce qui permettra des mouvements faciaux réalistes. Terminer le processus, le mécanisme Réseau dorsal est chargé de préserver l'identité du personnage et d'ajuster la vitesse des mouvements du visage.
Malgré le processus innovant, les développeurs d'Alibaba rapportent dans leur article scientifique qu'ils ont trouvé des limites dans le modèle. Ils ont cité que le IA EMO la production de contenu prend plus de temps que les autres IA du même segment et, dans certains cas, d'autres parties du corps peuvent apparaître dans la vidéo, comme par exemple les mains du personnage.
La recherche d'IA qui simulent des actions
Avec la compatibilité croissante des IA avec les systèmes d’exploitation existants sur les téléphones portables, la recherche de ces outils a explosé ces dernières années. Actuellement, il est possible de trouver plusieurs options d'application qui changent le visage de l'utilisateur avec un visage célèbre, le vieillissent, le rajeunissent, corrigent les expressions faciales, entre autres fonctionnalités.
Parmi ces possibilités, le deepfake, qui est le résultat d’une correspondance faciale ou de son remplacement à l’aide d’une IA. Cette ressource peut être utilisée à différentes fins, comme humoristiques, politiques ou même pornographiques. Concernant la politique, au Brésil, le TSE a activé l'alerte sur ce problème, prévoyant déjà l'utilisation de deepfake aux élections d'octobre de cette année.
Dans ce cas, le deepfake C'est une assiette pleine pour fausses nouvelles, car ils représentent généralement un candidat dans des situations menteuses ou simulant des discours controversés, dont il n'a jamais parlé, motivés par des intérêts politiques.
EMO AI produit des expressions dans plusieurs langues
Un autre obstacle surmonté par les IA, notamment le IA EMO, est la production de vidéos dans différentes langues. Ces technologies comprennent différentes langues, le son de leurs mots et leurs prononciations. Grâce à cela, il est possible de produire du contenu audiovisuel dans de nombreuses langues.
Découvrez plus de vidéos générées par EMO AI ci-dessous
Fontes: NowadAls, Arxiv, Humanaigc.
Voir aussi:
Revu par Glaucon Vital le 28/2/24.
En savoir plus sur Showmetech
Inscrivez-vous pour recevoir nos dernières actualités par email.