Génération d’images par diffusion VS  génération autoregressive

Un nouveau cap pour l’IA générative dans la génération d’images avec texte

Vous l’avez peut-être remarqué : le modèle IA ChatGPT affiche désormais un texte parfaitement lisible, aligné et intégré dans la génération d’image avec texte. Menus, affiches, schémas ou même bandes dessinées : les caractères sont nets, correctement alignés, et fidèles au prompt fourni.

En revanche, pourquoi les autres modèles IA génératifs comme Midjourney peinent-ils encore à produire du texte propre dans leurs images ?

Tout se joue dans l’architecture du modèle. Voici un tour d’horizon des différences majeures entre la génération d’images par diffusion et l’approche autoregressive.

La génération d’images par diffusion

Les modèles comme Midjourney utilisent la diffusion, une approche en trois étapes :

  • Bruit initial :

On part d’une image complètement aléatoire, un nuage de bruit gaussien (une matrice centrée dans l’origine et avec variance unitaire), visuellement équivalent à une neige de télévision).

  • U-Net (réseau de débruitage) :

Un U-Net est une architecture de réseau convolutif en forme de U. Elle permet d’effectuer une reconstruction multi-échelle.

À chaque étape de diffusion inverse, le U-Net apprend à prédire et retirer le bruit d’une image intermédiaire, conditionné sur une représentation du texte. Ce processus est itératif (souvent 20 à 150 étapes) et coûteux en calcul.

  • CLIP (liaison texte-image) :

CLIP (Contrastive Language-Image Pre-training) encode le texte et l’image dans un même espace latent. Lors de la génération, le modèle de diffusion est guidé pour produire des images dont les embeddings visuels s’alignent au mieux sur l’embedding texte fourni par CLIP.

Il permet au modèle de diffusion de savoir “vers quoi” l’image doit tendre selon le texte du prompt. Par exemple, si le prompt est « chat en armure », CLIP guide le réseau pour produire une image qui ressemble à l’idée visuelle associée à ces mots.

Un modèle peu précis

Cependant, le guidage par CLIP est indirect : il agit au niveau des concepts globaux mais n’a pas de notion native des contraintes typographiques. Le texte dans l’image est un artefact pixelisé du débruitage. Il n’est ni tokenisé, ni structuré.

La diffusion n’est donc pas adaptée à la génération d’éléments symboliques fins comme des lettres, du texte aligné ou des mises en page précises.

 

La génération autoregressive (AR)

OpenAI change complètement d’approche. Plutôt que de partir d’un bruit et de le filtrer, le modèle IA construit l’image de manière séquentielle, un token visuel à la fois, comme une phrase.

C’est pour cela que vous voyez votre image générée du haut vers le bas et que la génération peut prendre quelque dizaine de secondes !

Qu’est-ce qu’un token visuel ?

Il s’agit d’une unité discrète représentant une zone de l’image (ex. : 16×16 pixels). L’image est donc convertie en une séquence de tokens que le modèle apprend à générer. Ils forment une séquence similaire aux mots d’une phrase, que le modèle autoregressif peut générer un à un.

Transformer : cerveau de la générative AR

Le cœur du système est un “Transformer”, un modèle basé sur l’attention. Il prédit chaque token en fonction du contexte précédent.

Ici, ce contexte peut être composé de texte (prompt), de tokens visuels partiels, voire d’un historique conversationnel.

Ce modèle apprend à approximer la probabilité jointe P(t₁, …, tₙ), où chaque tᵢ est un token de texte ou d’image. La génération est donc causale et ordonnée. Ainsi, la gestion de l’image est structurée et sémantique.

Rolling Diffusion : le micro-décodeur intégré

Une fois la séquence de tokens visuels générée, ils sont décodés en pixels via un petit décodeur localisé, inspiré de la diffusion. Cette “rolling diffusion” n’est pas un processus global, mais appliqué à de petites fenêtres spatiales (groupes de tokens voisins).

Cela permet un rendu haute qualité sans la latence d’un pipeline de diffusion complet.

Mais alors, pourquoi ce modèle IA de génération d’image avec texte excelle-t-il pour le texte ?

Cela s’explique par le fait que chaque lettre est un composant visuel généré de manière explicite.

Le texte est modélisé dans l’espace de tokens, au même titre que l’image, ce qui permet :

  • une maîtrise précise des placements et alignements
  • un rendu fidèle au texte demandé dans le prompt
  • un rendu typographique propre, même sur des polices complexes ou des mises en page sophistiquées

Ainsi, avec ce modèle, on ne guide pas une image avec du texte : on génère une image avec du texte, dans une séquence unifiée.

Conclusion

L’approche autoregressive employée dans le nouveau modèle d’image d’OpenAI marque une rupture avec les architectures diffusion classiques.

En modélisant directement la séquence des tokens visuels et en intégrant le texte comme un premier citoyen dans cette séquence, ce modèle offre un contrôle structurel sans précédent sur la génération d’images.

Par conséquent, cette architecture unifiée permet une compréhension contextuelle fine, une génération incrémentale et une cohérence textuelle-visuelle qui surpassent nettement ce que permettaient les pipelines traditionnels fondés sur CLIP et la reverse-diffusion.

Cette avancée se mesure aussi dans des cas autrefois emblématiques des limites de la diffusion : les fameux “éléphants dans la pièce” ou le “verre de vin débordant”, que DALL·E ne parvenait jamais à représenter correctement. Ces artefacts appartiennent désormais au passé avec l’architecture autoregressive.

Un projet IA ? Discutons-en.

Et pour aller plus loin, suivez cette courte formation sur la Stable Diffusion, disponible gratuitement ici.

Références

  • Ramesh et al. “Hierarchical Text-Conditional Image Generation with CLIP Latents” (DALL·E 2)
  • Chen et al. “Re-Imagen: Scaling Autoregressive Models for Vision” (Parti)
  • Ding et al. “CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers” (2022)
  • OpenAI, “Introducing GPT-4o” (2024) — blog.openai.com
  • VAR: Visual AutoRegressive Models (2024), Google DeepMind
  • Touvron et al. “Visual Token Learners: Compressing Vision Transformers With Latent Tokenizers” (VTL)
  • Saharia et al. “Image Super-Resolution via Iterative Refinement” (SR3, diffusion decoder)