J’ai testé la génération d’image avec ChatGPT 4o

Depuis les premières peintures rupestres jusqu’aux infographies modernes, l’image a toujours été un outil de communication aussi puissant que polyvalent. C’est sur cette idée qu’OpenAI a bâti la promesse de son nouveau modèle GPT-4o : faire de la génération d’image un véritable outil de communication visuelle, précis, intelligent, et capable de produire des visuels sur-mesure, y compris avec du texte parfaitement lisible.
Mais derrière le discours marketing et les démonstrations spectaculaires, qu’en est-il vraiment ? OpenAI affirme que GPT-4o excelle désormais là où DALL·E avait échoué : suivre fidèlement les instructions, gérer le contexte conversationnel, comprendre les références visuelles, et surtout… rendre du texte correctement dans une image.
Une ambition affichée : faire de la génération d’image une solution efficace pour créer des logos, des schémas ou des visuels techniques, au-delà des paysages oniriques et portraits stylisés. Pourtant, ceux qui ont testé DALL·E auparavant se souviennent des résultats aléatoires, des déformations étranges, et de cette incapacité chronique à générer du texte correct.
Alors, GPT-4o est-il à la hauteur des promesses ? A-t-on vraiment franchi un cap dans la génération d’image, ou s’agit-il d’un simple rattrapage technologique emballé dans un beau discours ? C’est ce que j’ai voulu vérifier, images à l’appui.
A noter : les images dans cet article sont compressées, une nécessité pour un article Web, les images générées par ChatGPT sont donc de meilleures qualité.
Mise à jour la 28 mars : malgré mon abonnement ChatGPT Plus, la génération d’image rencontre toujours des problèmes (génération d’image non terminée). J’executerai de nouveaux tests. Ce qui est surprenant, de nombreux articles ne semblent pas rencontrer ce problème.
Mise à jour la 29 mars : la fonctionnalité est à nouveau fonctionnel, mais rencontre encore des problèmes techniques. OpenAI a communiqué à propos de problème de surcharge des serveurs.
ChatGPT 4o et la génération de paysage
S’il y a bien un domaine dans lequel les intelligences artificielles génératives excellent depuis plusieurs années, c’est celui des paysages. Une composition vaste, une lumière diffuse, des détails qui peuvent être approximatifs sans que cela choque immédiatement : tout cela joue en faveur de l’IA. C’est donc, logiquement, par là que j’ai commencé mes tests.
L’objectif ? Vérifier non seulement la qualité d’une image unique, mais aussi la cohérence visuelle entre deux scènes proches, avec une ambiance similaire, dans le cadre d’une même discussion.
J’ai donc soumis à ChatGPT 4o deux prompts :
- Prompt 1 : Crée une image de la tour Eiffel sous un orage et avec des rayons de soleil qui passent à travers les nuages. L’image est au format 16/9.
- Prompt 2 : Crée une image dans une ambiance similaire qui montre la cathédrale Notre-Dame. L’image est au format 16/9.
Un premier résultat impressionnant

Le premier prompt a produit une image particulièrement réussie. L’ambiance est bien là : un ciel menaçant traversé par des rayons de lumière, une Tour Eiffel parfaitement reconnaissable, un bon équilibre des couleurs, une composition esthétique. Bref, une image réaliste et visuellement convaincante. C’est une réussite, qui montre que GPT-4o est capable de générer des paysages crédibles et expressifs.
En revanche, le format 16/9 n’a pas été respecté.
Une deuxième image plus mitigée

Le deuxième prompt, quant à lui, conserve l’ambiance globale souhaitée : orage, lumière, contraste dramatique. On retrouve l’atmosphère pesante et les percées lumineuses. Cependant, quelques défauts viennent entacher le résultat. Malgré deux tentatives, l’image n’a pas été rendue complétement. Les serveurs de ChatGPT subissent une charge importante en ce moment, cela devrait se corriger.
Ce qui est plus gênant, en revanche, c’est le manque de variation dans le ciel. La forme des nuages, l’emplacement de l’éclair, le positionnement des rayons du soleil… Tout semble avoir été recyclé de la première image. Cela donne une impression de copier-coller partiel, comme si l’IA s’était contentée de remplacer le monument en modifiant légèrement la toile de fond.
Verdict
Pour un exercice considéré comme facile, GPT-4o s’en sort bien sur le plan esthétique et technique, mais montre rapidement ses limites lorsqu’on pousse un peu plus loin l’exigence de cohérence entre plusieurs visuels. L’arrière-plan identique trahit un système qui optimise ses efforts au lieu de réellement composer deux scènes différentes.
Le nom respect du format 16:9 est pour le moment, le point le plus gênant. Cela reste impressionnant, mais pas encore totalement maîtrisé.
ChatGPT 4o et la génération de bande dessinée
Créer une bande dessinée avec une intelligence artificielle, voilà une promesse qui fait rêver. Des personnages expressifs, des bulles de dialogue, un style graphique cohérent… et surtout, une narration visuelle humoristique générée à partir d’un simple prompt. Avec GPT-4o, OpenAI laisse entendre que ce genre d’exercice devient enfin possible, grâce à une meilleure compréhension du contexte, du texte et de l’image.
J’ai voulu vérifier par moi-même !
Premier test : un scénario trop ambitieux ?
Le premier prompt est volontairement complexe :
- Prompt 1 : Créé une bande dessinés à partir de cette histoire :
Le Pique-nique Catastrophe
Image 1
Dans un parc ensoleillé, un homme souriant (Martin) étale fièrement une nappe à carreaux sur l’herbe. Il sort un magnifique repas de son panier: sandwich élaboré, salade, fruits et une bouteille de vin. Son visage exprime une satisfaction totale.
Martin (en pensée): « Enfin un moment de tranquillité pour savourer mon pique-nique gourmet! »
Image 2
Martin s’apprête à croquer dans son sandwich quand une file de fourmis commence à grimper sur la nappe. Au même moment, un chien joyeux s’approche en courant, langue pendante, œil rivé sur la nourriture. En arrière-plan, on voit des nuages sombres qui s’amoncellent rapidement.
Martin: « Oh non, pas aujourd’hui! »
Image 3
Chaos total: Martin est debout, essayant désespérément de chasser le chien qui s’enfuit avec le sandwich dans la gueule. La bouteille de vin est renversée sur la nappe, les fourmis envahissent le reste de la nourriture, et une pluie torrentielle commence à tomber. Martin est complètement trempé, les cheveux plaqués sur le visage.
Martin: « POURQUOIIII?! »
Image 4
Martin est assis sous un arbre, trempé jusqu’aux os, un sourire résigné au visage. Il mange paisiblement… une barre de céréales sortie de sa poche. Le chien est revenu et s’est allongé à côté de lui. Martin partage sa barre avec l’animal tandis que le soleil recommence à percer entre les nuages, créant un arc-en-ciel.
Martin: « Finalement, c’est peut-être ça le vrai luxe… »
Contrairement à mes premiers essais, le résultat est bluffant, malgré quelques problèmes techniques qui persistent.

Un aspect notable de la génération d’images par ChatGPT 4o pour la bande dessinée est la qualité remarquable du texte intégré. Bien que quelques fautes subsistent, la lisibilité et l’intégration harmonieuse des dialogues dans les cases témoignent d’une avancée significative. Les instructions fournies dans le prompt sont majoritairement respectées, offrant un résultat fidèle aux attentes initiales. On note cependant quelques incohérences dans la représentation du personnage principal à travers les différentes cases, un point qui mériterait d’être affiné pour garantir une continuité visuelle parfaite. Ces légères imperfections n’enlèvent toutefois rien à l’impressionnante capacité du modèle à traduire des concepts textuels en narration visuelle structurée.
Verdict sur la génération de bande dessinée
Verdict sur la génération de bande dessinée par ChatGPT 4o : l’expérience s’avère particulièrement prometteuse. Le concept de création automatisée de bandes dessinées via cette technologie présente un attrait indéniable. D’un point de vue théorique, tous les éléments essentiels sont au rendez-vous : un style graphique distinctif, des dialogues intégrés et une structure narrative cohérente. Les premiers résultats sont impressionnants et témoignent d’un potentiel considérable. Néanmoins, il convient de rester prudent dans l’évaluation de cet outil. Nous sommes vraisemblablement aux prémices de cette technologie, et il faudra davantage de temps et d’expérimentation pour comprendre pleinement ses capacités et ses limites. L’évolution rapide de cette fonctionnalité laisse présager des améliorations significatives dans un avenir proche.
Conclusion (temporaire) sur ChatGPT 4o et la génération d’image
Difficile de dresser un bilan définitif tant la technologie évolue vite, mais une chose est sûre : la génération d’image avec ChatGPT 4o marque un vrai progrès par rapport à DALL·E. Le rendu de la Tour Eiffel sous l’orage en est une preuve éclatante. Le moteur est capable de produire des visuels esthétiques, cohérents et expressifs, bien au-delà de ce que proposaient les versions précédentes.
Autre amélioration notable : la génération de texte dans les images, historiquement un point faible des IA génératives. GPT-4o parvient désormais à insérer des phrases lisibles et respecte en grande partie le prompt. Certes, il reste des fautes, des incohérences, voire des dialogues absurdes dans les cas plus complexes, mais il s’agit là d’une première version. Le potentiel est bien réel.
Cela dit, la réalité du service actuel est encore loin d’être idéale. La surcharge des serveurs d’OpenAI pénalise lourdement l’expérience : de nombreuses tentatives n’aboutissent pas, certaines images sont incomplètes ou simplement absentes. C’est un frein non négligeable, surtout pour une fonctionnalité qui repose sur l’itération rapide et l’exploration créative.
Alors, ChatGPT 4o peut-il rivaliser avec des outils spécialisés comme Midjourney ou Stable Diffusion ? Pour le moment, non. Ces solutions restent plus puissantes, plus cohérentes sur le plan artistique et surtout plus stables. Mais GPT-4o possède un atout stratégique majeur : l’intégration au sein d’un outil conversationnel, capable de comprendre un contexte complexe, de combiner texte et image, et d’adapter ses réponses à chaque utilisateur.
À condition toutefois que les problèmes de lenteur et d’instabilité soient rapidement corrigés. Car si l’ambition d’OpenAI est de faire de ChatGPT une IA généraliste, capable de tout faire, encore faut-il qu’elle puisse le faire vite, bien et de façon fiable. À défaut, les utilisateurs risquent de se tourner vers des outils moins polyvalents, mais plus robustes et plus réactifs.
Enfin, il est bon de rappeler que ces tests ont été réalisés avec un abonnement ChatGPT Plus, censé garantir un accès prioritaire et une meilleure performance.
Si vous appréciez nos articles, ne manquez les prochains en vous abonnant à Cosmo Games sur Google News, vous pouvez également nous suivre sur X (ex Twitter). N'hésitez pas à partager vos réactions, commentaires ou remarques dans les commentaires, afin d'enrichir le contenu, de mieux vous comprendre et intégrer les différents points de vue. Un partage sur les réseaux sociaux nous aide également beaucoup, merci pour votre soutien !