January 9, 2026(Updated 2/5/2026)

Z-Image Omni Base arrive enfin ! Le modèle AI tout-en-un unifié pour la génération et l'édition d'images est sur le point d'être lancé

Author: z-image.me Team•5 min read

Z-Image Omni Base est vraiment en route ! Le modèle AI tout-en-un pour la génération et l'édition unifiée arrive bientôt

Les derniers développements de z-image font sensation dans la communauté

Récemment, les discussions dans la communauté du domaine de la génération d'images par IA continuent d'être animées par un nom : Z-Image Omni Base. Des sujets de discussion populaires sur Reddit comme "Le modèle Z-Image Base va tenir sa promesse", "ZImage Omni arrive", "Omni Base semble sur le point d'être publié", aux informations officielles progressivement dévoilées, ce modèle fondamental tant attendu a enfin reçu un signal clair de son arrivée, qui apportera une transformation importante au domaine de la génération et de l'édition d'images par IA.

Aperçu de Z-Image Omni Base

Z-Image Omni Base est l'évolution de la série Z-Image de l'équipe Tongyi-MAI d'Alibaba, passant du Z-Image-Base initial à une pré-entraînement mettant l'accent sur "omni". Cette méthode permet un traitement transparent de la génération de texte en image (T2I) et de l'édition d'image en image (I2I) sans perte de performance lors du changement de tâches. Il est basé sur un Transformer de diffusion à flux unique et extensible (S3-DiT) de 6B paramètres, traitant le texte, les jetons sémantiques visuels et les jetons d'image VAE dans un flux unifié, avec une capacité bilingue chinois-anglais.

La mise à niveau stratégique derrière le nom : la transition essentielle de "Base" à "Omni Base"

L'arrivée de ce modèle n'est pas une simple itération de version, mais une mise à niveau stratégique fondamentale. Comme je l'ai analysé précédemment (lien original : https://z-image.me/en/blog/Not_Z-Image-Base_but_Z-Image-Omni-Base), le Z-Image-Base initialement prévu a été officiellement renommé Z-Image-Omni-Base. Ce changement de nom n'est pas simplement un ajustement d'étiquette, mais symbolise la transition stratégique de l'architecture du modèle vers un pré-entraînement "omni" (tout-en-un) - il brise les barrières traditionnelles qui séparent les tâches de génération et d'édition des modèles, et réalise l'unification de ces deux fonctions fondamentales grâce à un pipeline de pré-entraînement à scénarios complets intégrant les données de génération et d'édition.

Cette unification apporte des avantages clés : elle évite la complexité et la perte de performance des modèles traditionnels lors du changement entre les tâches de génération et d'édition, tout en permettant l'utilisation d'outils comme les adaptateurs LoRA entre différentes tâches, offrant aux développeurs des outils open source plus flexibles et réduisant la dépendance à de multiples variantes de modèles spécialisés. Les utilisateurs de la communauté ont rapidement perçu ce changement, l'appelant fréquemment "Omni Base" dans leurs discussions, mettant en avant son caractère "omni" plutôt que sa simple fonction de modèle de base pour la génération.

Mises à jour de la série Z-Image

En plus de l'Omni Base qui attire le plus l'attention, la série Z-Image a également ajouté une nouvelle variante : Z-Image :

La série comprend actuellement quatre variantes principales :

Ce tableau met en évidence les caractéristiques équilibrées de l'Omni Base, le rendant adapté aux développeurs cherchant une base de modèle personnalisable. Les intégrations communautaires, comme stable-diffusion.cpp, améliorent encore l'accessibilité, permettant d'exécuter des versions quantifiées sur du matériel tel que le RTX 3090.

Les benchmarks de performance dans le rapport arXiv montent que Z-Image rivalise avec les systèmes commerciaux en termes de réalisme photographique et de rendu de texte. Par exemple, le classement de Turbo dans les classements met en évidence la compétitivité de la série, et l'Omni Base devrait s'appuyer sur ce fondement avec son paradigme omni, pouvant potentiellement activer des extensions comme la génération vidéo (bien que non confirmé).

Preuves d'une sortie imminente

Les discussions communautaires se sont intensifiées ces dernières semaines, en particulier dans les sous-sections r/StableDiffusion et r/LocalLLaMA de Reddit. Selon un message du 8 janvier 2026, les utilisateurs ont souligné les préparatifs pour Z-Image-Omni-Base. Par exemple, le fil de discussion titré "Z-Image OmniBase looking like it's gonna release soon" cite des validations clés dans le dépôt ModelScope DiffSynth-Studio, datant d'environ la même période. Cette validation a ajouté un support complet pour Omni Base, y compris :

Nouvelles configurations de modèles pour Z-Image-Omni-Base, Siglip2ImageEncoder428M (modèle visuel de 428M paramètres), ZImageControlNet et ZImageImage2LoRAModel.
Mises à jour de la gestion VRAM pour un emballage de couches efficace, permettant une inférence avec faible VRAM.
Modifications du pipeline de base pour le traitement des LoRA unidirectionnels et des fonctions de modèle guidé.
Scripts d'inférence et d'entraînement dédiés, tels que Z-Image-Omni-Base.py et des fichiers .sh, pour la validation du modèle et la condition ControlNet.

Ces changements indiquent que le cadre est aligné pour une utilisation immédiate après la publication des poids. Un autre message Reddit "Z-image Omni 👀" discute de l'impact de la validation, notant le support natif Image-to-LoRA et la compatibilité ControlNet de jour zéro. Les utilisateurs spéculent qu'Omni Base servira de base pour l'entraînement LoRA, pouvant potentiellement surpasser Turbo en termes de polyvalence tout en complétant son workflow axé sur la vitesse.

Le dépôt GitHub officiel Tongyi-MAI/Z-Image renforce encore l'optimisme. Mis à jour récemment le 7 janvier 2026, il liste explicitement Z-Image-Omni-Base comme "à paraître" sur Hugging Face et ModelScope. Les validations récentes incluent des améliorations pour le téléchargement automatique des points de contrôle et un backend d'attention configurable, basées sur la validation initiale du 26 novembre 2025. L'intégration avec Hugging Face Diffusers (via les PR #12703 et #12715) assure une adoption transparente.