Génération d’images par diffusion VS génération autoregressive
Vous l’avez peut-être remarqué : le modèle IA ChatGPT affiche désormais un texte parfaitement lisible, aligné et intégré dans la génération d’image avec texte. Menus, affiches, schémas ou même bandes dessinées : les caractères sont nets, correctement alignés, et fidèles au prompt fourni.
En revanche, pourquoi les autres modèles IA génératifs comme Midjourney peinent-ils encore à produire du texte propre dans leurs images ?
Tout se joue dans l’architecture du modèle. Voici un tour d’horizon des différences majeures entre la génération d’images par diffusion et l’approche autoregressive.
Les modèles comme Midjourney utilisent la diffusion, une approche en trois étapes :
On part d’une image complètement aléatoire, un nuage de bruit gaussien (une matrice centrée dans l’origine et avec variance unitaire), visuellement équivalent à une neige de télévision).
Un U-Net est une architecture de réseau convolutif en forme de U. Elle permet d’effectuer une reconstruction multi-échelle.
À chaque étape de diffusion inverse, le U-Net apprend à prédire et retirer le bruit d’une image intermédiaire, conditionné sur une représentation du texte. Ce processus est itératif (souvent 20 à 150 étapes) et coûteux en calcul.
CLIP (Contrastive Language-Image Pre-training) encode le texte et l’image dans un même espace latent. Lors de la génération, le modèle de diffusion est guidé pour produire des images dont les embeddings visuels s’alignent au mieux sur l’embedding texte fourni par CLIP.
Il permet au modèle de diffusion de savoir “vers quoi” l’image doit tendre selon le texte du prompt. Par exemple, si le prompt est « chat en armure », CLIP guide le réseau pour produire une image qui ressemble à l’idée visuelle associée à ces mots.
Cependant, le guidage par CLIP est indirect : il agit au niveau des concepts globaux mais n’a pas de notion native des contraintes typographiques. Le texte dans l’image est un artefact pixelisé du débruitage. Il n’est ni tokenisé, ni structuré.
La diffusion n’est donc pas adaptée à la génération d’éléments symboliques fins comme des lettres, du texte aligné ou des mises en page précises.
OpenAI change complètement d’approche. Plutôt que de partir d’un bruit et de le filtrer, le modèle IA construit l’image de manière séquentielle, un token visuel à la fois, comme une phrase.
C’est pour cela que vous voyez votre image générée du haut vers le bas et que la génération peut prendre quelque dizaine de secondes !
Il s’agit d’une unité discrète représentant une zone de l’image (ex. : 16×16 pixels). L’image est donc convertie en une séquence de tokens que le modèle apprend à générer. Ils forment une séquence similaire aux mots d’une phrase, que le modèle autoregressif peut générer un à un.
Le cœur du système est un “Transformer”, un modèle basé sur l’attention. Il prédit chaque token en fonction du contexte précédent.
Ici, ce contexte peut être composé de texte (prompt), de tokens visuels partiels, voire d’un historique conversationnel.
Ce modèle apprend à approximer la probabilité jointe P(t₁, …, tₙ), où chaque tᵢ est un token de texte ou d’image. La génération est donc causale et ordonnée. Ainsi, la gestion de l’image est structurée et sémantique.
Une fois la séquence de tokens visuels générée, ils sont décodés en pixels via un petit décodeur localisé, inspiré de la diffusion. Cette “rolling diffusion” n’est pas un processus global, mais appliqué à de petites fenêtres spatiales (groupes de tokens voisins).
Cela permet un rendu haute qualité sans la latence d’un pipeline de diffusion complet.
Cela s’explique par le fait que chaque lettre est un composant visuel généré de manière explicite.
Le texte est modélisé dans l’espace de tokens, au même titre que l’image, ce qui permet :
Ainsi, avec ce modèle, on ne guide pas une image avec du texte : on génère une image avec du texte, dans une séquence unifiée.
L’approche autoregressive employée dans le nouveau modèle d’image d’OpenAI marque une rupture avec les architectures diffusion classiques.
En modélisant directement la séquence des tokens visuels et en intégrant le texte comme un premier citoyen dans cette séquence, ce modèle offre un contrôle structurel sans précédent sur la génération d’images.
Par conséquent, cette architecture unifiée permet une compréhension contextuelle fine, une génération incrémentale et une cohérence textuelle-visuelle qui surpassent nettement ce que permettaient les pipelines traditionnels fondés sur CLIP et la reverse-diffusion.
Cette avancée se mesure aussi dans des cas autrefois emblématiques des limites de la diffusion : les fameux “éléphants dans la pièce” ou le “verre de vin débordant”, que DALL·E ne parvenait jamais à représenter correctement. Ces artefacts appartiennent désormais au passé avec l’architecture autoregressive.
Un projet IA ? Discutons-en.
Et pour aller plus loin, suivez cette courte formation sur la Stable Diffusion, disponible gratuitement ici.