Nouveau : GPT sait (enfin) faire des images de Paris sans chat.
- Laurant Weill
- 10 oct.
- 3 min de lecture
Dernière mise à jour : 11 oct.

Avant le 15 Mars quand on demandait à GPT : « Génère une image de Paris sans chat » il nous livrait une image de Paris… avec des tas de chats !

Quand on écrivait : « Une fourchette à trois pointes », on recevait une fourchette à quatre dents (note : sauf si on décomposait le prompt en deux étapes : « Décris... puis génère... »).
Eh bien le nouveau modèle d’OpenAI, nativement intégré dans ChatGPT (Pro), change radicalement la donne.
Pourquoi ?
🎯 GPT‑4o : comprend ce que l’on dit
L’un des grands défauts de DALL·E 3, c’était son incapacité à gérer les consignes négatives. On avait beau dire «Paris sans chat », le mot “sans” suffisait à déclencher un biais dans le modèle. Il se disait mon humain a sans doute commis une erreur : Moi je ne connais que des images de Paris avec chats, on ne m’a pas entrainé avec des images de Paris sans chat ? Résultat : il y avait le plus souvent… des chats.
Avec GPT‑4o, on assiste à une vraie amélioration. Le modèle est entraîné sur une architecture multimodale unifiée : texte et image ne sont plus séparés, mais traités ensemble, dans le même flux cognitif.
Le prompt n’est plus “interprété” puis transmis à un générateur d’images comme avant. Il est compris par le modèle dans sa richesse linguistique, y compris les instructions complexes, les négations, les exceptions.
Donc maintenant, « sans chat » veut dire zéro chat. Et ça marche.
🔬 Une meilleure gestion des attributs visuels
Autre point clé : la précision visuelle.
De même, si vous demandiez une fourchette à trois pointes ? DALL·E 3 en mettait le plus souvent quatre, par réflexe statistique. Normal, on lui a appris que des fourchettes à 4 pointes !GPT‑4o, lui, associe le concept “trois pointes” à l’objet “fourchette” sans se tromper, grâce à une capacité renforcée de binding (liaison) entre objets et attributs.
De plus GPT‑4o sait aujourd’hui gérer jusqu’à 20 objets distincts dans une scène, avec leurs propriétés (forme, couleur, position, etc.), contre 5 à 8 objets précédemment.
🧱 Une architecture image + texte unifiée
La clé de tout ça ?GPT‑4o repose sur un transformeur auto-régressif multimodal, ça semble compliqué, et ça l’est. Le modèle génère les images comme du texte : séquentiellement, en tenant compte de chaque mot du prompt, à chaque étape de la génération.
Fini le modèle de diffusion séparé. On est passé à une IA qui réfléchit avant de dessiner, et qui garde le contexte du début à la fin.
Ce changement de paradigme permet :
Une fidélité sans précédent aux prompts
Une compréhension plus fine des contraintes, même implicites
Un alignement plus rigoureux entre intention et résultat
✨ Pour résumer les nouveautés les plus remarquables
Au-delà de la précision, GPT‑4o ajoute de nouveaux super-pouvoirs qui changent la façon dont sont conçus les visuels :
✅ Incorporation native de texte dans l’image (et pas juste des lettres aléatoires comme avant)→ Idéal pour des affiches, mockups, étiquettes, UI, ou même des jaquettes de livres.
✅ Capacité à modifier ou générer une image à partir d’une autre→ J’ai refait la déco de la future maison de ma fille à partir de simples photos 📸🪄
✅ Compréhension du style, de la composition, et même de l’intention artistique→ GPT‑4o commence à interpréter non seulement ce que vous dites, mais pourquoi vous le dites
✅ Réduction drastique des hallucinations visuelles→ Finis les mains à 6 doigts.
✅ Stabilité entre générations similaires→ Deux prompts proches donnent maintenant des images cohérentes, ce qui facilite les itérations.


