Invite d'édition d'image dans ChatGPT pour styliser une photo comme un dessin du Studio Ghibli

Comprendre comment ChatGPT crée des images dans le style du Studio Ghibli

Avatar de Felipe Faustino
Après une mise à jour majeure de ChatGPT, la fonctionnalité permet désormais la génération d'images plus avancées. Découvrez comment cela fonctionne

Au milieu de la grandiloquence tendance des photos de style anime, vous vous êtes peut-être demandé : comment le ChatGPT crée des images dans le style de Studio Ghibli? Il ne pouvait pas avant ? Eh bien… il s’avère que la nouvelle capacité d’imagerie générative de OpenAI C'est vraiment nouveau et cela a tout à voir avec un grand changement dans la façon dont fonctionne le modèle d'intelligence artificielle de l'entreprise. Comprendre, dans ce texte, comment le ChatGPT réussi à reproduire l'art de Studio Ghibli et les principales différences par rapport aux autres modèles.

Comment ChatGPT crée-t-il des images de style Ghibli ?

Pour comprendre comment le ChatGPT ont commencé à pouvoir générer des images comme celles créées dans tendance do Studio Ghibli, il est nécessaire de connaître les principaux changements apportés par OpenAI dans le modèle GPT-4o, lire ci-dessous.

Qu’est-ce qui a changé dans le modèle GPT-4o ?

Personne avec ordinateur utilisant ChatGPT pour générer des images
Image : Reproduction/OpenAI

La génération d'images dans le GPT-4o est basé sur l'architecture transformateur, qui analyse les modèles et associe des descriptions textuelles à des éléments visuels. Contrairement aux « modèles de diffusion », qui partent d’une image aléatoire et l’affinent progressivement, le GPT-4o adopte une méthode autorégressive, construisant l'image par étapes séquentielles, ce qui améliore la cohérence visuelle et la fidélité au style souhaité.

À mesure que la précision et le rendu du texte dans les images s'améliorent, et que la capacité à comprendre et à suivre des invites détaillées s'améliore, ChatGPT a augmenté sa capacité à gérer le nombre d'objets distincts dans une seule scène (jusqu'à 20, contre auparavant entre 5 et 8 objets) et peut maintenir les relations correctes entre eux.

Par rapport aux modèles précédents tels que le DALL-E3, qui a utilisé pipelines (ensemble d'étapes ou de processus) distincts pour différents types de médias, le GPT-4o adopte une approche unifiée, permettant des réponses plus rapides et des images plus cohérentes avec les commandes textuelles, éliminant ainsi le besoin de plusieurs processus intermédiaires. Cela signifie que le modèle peut mieux interpréter les nuances des invites fournies par les utilisateurs, garantissant que la sortie visuelle est plus alignée avec l'intention d'origine.

Toute cette puissance s'accompagne d'un problème controversé : avec une demande accrue de traitement graphique en raison de l'explosion de la mode sur Internet, OpenAI nécessaire de limiter l'utilisation de l'outil pendant quelques jours, en particulier pour les utilisateurs gratuits de ChatGPT, parce que leur GPU étaient « en train de fondre », selon le PDG de l’entreprise, Sam Altman. Malgré les inconvénients, la génération d'images avancées a déjà été publiée par la société pour les utilisateurs du plan gratuit, comme l'a annoncé le dirigeant.

Comment la mise à jour permet-elle d'obtenir des images de style Ghibli ?

Deux hommes et un chien, à gauche, à droite, même photo transformée en style anime
Image : Archives personnelles/Bruno Martinez

Mais qu'est-ce que tout cela signifie pour la capacité de l'IA à capturer l'esthétique de Studio Ghibli? Il s'avère qu'avec la nouvelle mise à jour, le GPT-4o Il commence à mieux comprendre les modèles de style, à partir d'exemples massifs d'images, et apprend à reproduire ces caractéristiques en fonction des commandes fournies par l'utilisateur.

Bien que le OpenAI n'ont pas explicitement indiqué si leur ensemble de données de formation comprenait des œuvres d'art spécifiques Studio GhibliComme À Viagem de Chihiro ou Le garçon et la grue – chevauchant un fossé qui différencie la reproduction des styles de studio de ceux des artistes vivants – la compétence du modèle à reproduire l'esthétique du studio suggère fortement qu'il a été exposé à un grand nombre d'exemples de films et de styles associés.

À travers cette exposition, le GPT-4o apprenez les principales caractéristiques visuelles qui définissent le style de Studio Ghibli, y compris : la sensation d'une animation dessinée à la main, rappelant souvent l'animation papier traditionnelle ; des arrière-plans qui évoquent un sentiment d’émerveillement et de tranquillité ; personnages expressifs présentant généralement de grands yeux émotifs ; une palette de couleurs douces et naturelles dominée par des tons pastel et doux ; environnements détaillés qui mélangent souvent des éléments fantastiques avec du réalisme

De plus, le GPT-4o Il peut également traiter des images en entrée, permettant aux utilisateurs de transformer des visuels existants ou de les utiliser comme base pour générer du nouveau contenu. De cette façon, en plus de ne pas avoir à dire tous les détails sur le style artistique qu'ils souhaitent reproduire, les utilisateurs n'ont pas non plus besoin de se décrire ou de décrire la photo qu'ils souhaitent recréer, il suffit d'insérer une photo dans le chat et de demander à l'IA de la reproduire avec le style d'animation - comme vous pouvez le voir dans notre article sur Comment créer des images de style Ghibli avec ChatGPT, avec des conseils et des invites.

D’autres IA peuvent-elles reproduire le style du Studio Ghibli ?

Créez de nouvelles images en utilisant Chatbots n'est pas une nouveauté récente, cependant, la capacité obtenue en mettant à jour le ChatGPT en analysant et en reproduisant les détails suggérés par l'invite, ils remplacent l'IA OpenAI en avance sur ses principaux concurrents, tels que GEMINI, Je Google, Grok, à partir XAi e Copilote, à partir Microsoft, en termes de génération d'images.

Voyez la différence entre la même image transformée en dessin avec une ligne inspirée de Studio Ghibli en suivant la même invite :

Crie uma imagem, inspirada nessa foto, com base no estilo do Studio Ghibli
Photo d'un homme dans un environnement naturel, portant une chemise bleu foncé - comprenez comment chatgpt crée des images dans le style du studio ghibli
La différence entre la qualité finale est claire, en particulier lors de la génération de lettres et de symboles – Image : Archives personnelles/Felipe Faustino

En plus de mieux capturer les détails de l'image originale, l'une des plus grandes avancées de l'imagerie générative GPT-4o Cela se manifeste dans la capacité à reproduire le logo et les lettres sur le t-shirt, ce qui est très difficile dans d'autres modèles.

Alors que le Grok parvient, d'une certaine manière, à recréer les caractéristiques du style de Studio Ghibli, même si elle souffre du détail de l'image, la GEMINI va complètement à contre-courant, ce qui donne lieu à un art générique. Il convient de rappeler que le Google investit déjà dans une mise à jour des images génératives de GEMINI, permettant la création d'images complexes et l'édition de photos - des outils qui peut être testé via AI Studio. Copilote, à partir Microsoft, n'a pas répondu à l'invite.

Avez-vous déjà testé l'outil pour saisir le Tendance Studio Ghibli? Dites le nous dans les commentaires.

Voir aussi

Texte révisé par Alexandre Marques le 01/04/2025.

Fontes: The Times of India, Hindustan Times, Economic Times


En savoir plus sur Showmetech

Inscrivez-vous pour recevoir nos dernières actualités par email.

Related posts