Sommaire
O VASA-1 est la dernière IA de Microsoft, conçu pour créer des deepfakes hyperréalistes à partir d’une seule photo ou d’un dessin d’une personne. L'outil impressionne par sa capacité à reproduire avec précision les expressions faciales et les mouvements de la tête, donnant l'illusion que la personne sur la photo exprime réellement quelque chose. Dans les manifestations présentées par MicrosoftQu'il s'agisse d'un vin rare et exotique ou du même vin dans différents millésimes, quel que soit votre choix au VASA-1 impressionné par la reproduction du mouvement des lèvres synchronisé avec l'audio et la création d'expressions non présentes dans les photos originales, ce qui donne lieu à des vidéos extrêmement convaincantes.
Le nouvel outil soulève des inquiétudes quant à l’utilisation éthique des technologies deepfake, car sa capacité à créer des vidéos réalistes avec peu d’informations d’entrée pourrait potentiellement être utilisée pour créer de fausses nouvelles, des vidéos diffamatoires et même des canulars. Par conséquent, la Microsoft s'efforce de garantir que le VASA-1 être utilisé de manière responsable et éthique.
Qu’est-ce que VASA-1 et comment ça marche ?
Cela semble vrai, mais la vidéo ci-dessus n'est qu'un deepfake. VASA-1 représente une avancée significative dans la génération de visages parlants réalistes grâce à l’intelligence artificielle. Ô VASA-1 est capable de produire des vidéos de visages parlants à partir d'une seule image fixe, qu'il s'agisse d'une photo ou d'un dessin, d'un individu et d'un clip audio de discours. Les vidéos qui en résultent présentent non seulement des mouvements de lèvres synchronisés avec l'audio, mais également une large gamme de dynamiques faciales naturelles et de mouvements de tête, atteignant un haut niveau de réalisme et de vivacité.
Contrairement aux méthodes précédentes, le VASA-1 aborde la génération de visages parlants de manière holistique, en considérant tous les mouvements faciaux possibles, tels que les expressions, les mouvements oculaires et les clignements, comme des variables latentes uniques. Par ailleurs, le VASA-1 intègre des signaux de conditionnement facultatifs, tels que la direction principale du regard, la distance de la tête et le décalage émotionnel, dans le processus d'apprentissage. Cela rend la modélisation générative de distributions complexes plus contrôlable et augmente la comptabilité des générations. Dans la vidéo ci-dessous, par exemple, le VASA-1 a démontré différentes options de direction du regard dans le deepfake.
L'un des aspects les plus impressionnants de VASA-1 est sa capacité à générer des visages parlants en temps réel, ce qui le rend idéal pour les applications de communication interactive. En équilibrant la qualité de la génération vidéo avec l'efficacité informatique, VASA-1 Il surpasse considérablement les méthodes existantes, nous rapprochant d’un avenir où les avatars numériques basés sur l’IA pourront interagir avec nous aussi naturellement et intuitivement que les interactions avec de vrais humains.
La représentation de VASA-1 peut modifier l'apparence, la position tridimensionnelle de la tête et la dynamique du visage, ce qui permet un contrôle séparé des attributs et l'édition du contenu généré. Cela signifie que, même avec une seule photo d'entrée, il est possible de générer des vidéos de visages parlants avec différentes séquences de mouvements ou d'appliquer différentes photos à la même séquence de mouvements, ce qui entraîne une grande variété de possibilités de personnalisation et de contrôle sur le contenu généré.
Les dangers des deepfakes

O VASA-1, malgré ses possibles applications positives, présente également des risques importants liés à la création de deepfakes. Cette technologie peut être utilisée à mauvais escient pour créer de fausses vidéos extrêmement convaincantes dans lesquelles une personne est représentée en train de faire ou de dire quelque chose qui ne s'est jamais produit. Ces deepfakes peuvent potentiellement causer de graves dommages, comme la diffusion de fausses informations, la manipulation de l’opinion publique, la diffamation d’individus et même l’incitation à des conflits sociaux ou politiques.
En particulier pendant les périodes électorales, la technologie pourrait générer des problèmes liés à une utilisation malveillante avec la création de deepfakes politiques. Avec cette technologie, il est possible de créer des vidéos d’hommes politiques ou de personnalités publiques tenant de faux discours ou menant des actions compromettantes. Ces vidéos peuvent être utilisées pour influencer les élections, saper la confiance du public dans les dirigeants et les institutions et générer une instabilité politique.
L’utilisation des Deepfakes a suscité l’attention et l’inquiétude de plusieurs gouvernements à travers le monde. Au Brésil, le TSE interdit l'utilisation de deepfakes lors des élections, la mesure ayant été approuvée en février de cette année. Cette interdiction vise à empêcher la manipulation de l'information et à protéger l'intégrité du processus électoral, en empêchant que de fausses vidéos et audios soient utilisés pour nuire ou favoriser les candidats. L’utilisation inappropriée des deepfakes peut entraîner la révocation du mandat ou l’enregistrement de la candidature.
La Chine, en particulier, a été pionnière en matière de réglementation globale de l’utilisation de ces technologies. Sa législation, plus large que celle adoptée par certains gouvernements occidentaux, est considérée comme un instrument permettant de maintenir la stabilité sociale. Il interdit explicitement la création de deepfakes sans consentement et exige une identification claire du contenu généré par l’IA.
Un exemple alarmant s’est produit après l’invasion russe de l’Ukraine., lorsqu'une vidéo deepfake a été largement diffusée sur les réseaux sociaux. Dans ce document, le président ukrainien Volodymyr Zelensky semblait ordonner à ses troupes de se rendre, ce qui n’a jamais eu lieu. En outre, les deepfakes peuvent être utilisés plus largement dans des situations quotidiennes, telles que la création de fausses vidéos de célébrités, d’amis ou de membres de la famille, créant ainsi de la confusion et nuisant à la réputation des personnes impliquées.
Prévision de sortie

A Microsoft reconnaît les risques associés à VASA-1 et s'engage à garantir que l'outil est développé et utilisé de manière responsable. En raison des problèmes potentiels d'éthique, de confidentialité et de sécurité qui VASA-1 peut générer le Microsoft Il n’y a pas encore de date de sortie pour le grand public.
L'entreprise travaille activement à la mise en œuvre de mesures de sécurité et de contrôle permettant d'atténuer les risques d'utilisation abusive de la technologie. Les développeurs s'efforcent d'améliorer l'authenticité des vidéos générées et de développer des méthodes de détection des deepfakes qui peuvent aider à lutter contre l'utilisation abusive de la technologie, avant d'envisager sa diffusion auprès du grand public.
Voir ceci et d’autres nouvelles sur Showmetech TRIO :
Voir aussi:
Fontes: PCMag, Microsoft e En short
Revu par Glaucon Vital le 22/4/24.
En savoir plus sur Showmetech
Inscrivez-vous pour recevoir nos dernières actualités par email.