¡Z-Image Omni Base finalmente está aquí! El modelo de IA todo-en-uno que unifica la generación y edición de imágenes está a punto de debutar
(Updated 2/5/2026)

¡Z-Image Omni Base finalmente está aquí! El modelo de IA todo-en-uno que unifica la generación y edición de imágenes está a punto de debutar

Author: z-image.me Team5 min read

¡Z-Image Omni Base está realmente llegando! El modelo de IA todo-en-uno para generación y edición unificada está a punto de debutar

Las últimas novedades de z-image están causando revolución en la comunidad

Recientemente, las discusiones en la comunidad del campo de la generación de imágenes por IA han sido constantemente encendidas por un nombre: Z-Image Omni Base. Desde los temas de debate populares en la comunidad de Reddit como "El modelo Z-Image Base está a punto de cumplir su promesa", "ZImage Omni está llegando", "Omni Base parece que va a ser lanzado", hasta la divulgación gradual de información oficial, este tan esperado modelo base todo-en-uno finalmente ha recibido una señal clara de su debut, y su llegada traerá una transformación importante al campo de la generación y edición de imágenes por IA.

TongyiLab的动态

Resumen de Z-Image Omni Base

Z-Image Omni Base es la evolución de la serie Z-Image del equipo Tongyi-MAI de Alibaba, pasando del Z-Image-Base original a enfatizar el preentrenamiento "omni". Este método permite un procesamiento sin fisuras de la generación de texto a imagen (T2I) y la edición de imagen a imagen (I2I), sin una disminución del rendimiento debido al cambio de tareas. Se basa en un Transformer de difusión de un solo flujo escalable (S3-DiT) de 6B parámetros, procesando texto, tokens semánticos visuales y tokens de imagen VAE en un flujo unificado, con capacidades bilingües en chino e inglés.

La mejora estratégica detrás del nombre: El esencial salto de "Base" a "Omni Base"

El debut de este modelo no es simplemente una iteración de versión, sino una mejora estratégica central. Como en mi análisis anterior (enlace original: https://z-image.me/en/blog/Not_Z-Image-Base_but_Z-Image-Omni-Base), el Z-Image-Base originalmente planeado ha sido oficialmente renombrado a Z-Image-Omni-Base. Este cambio de nombre no es un simple ajuste de etiqueta, sino un símbolo de la transformación estratégica de la arquitectura del modelo hacia el preentrenamiento "todo-en-uno" (omni) — rompe las barreras tradicionales que separan las tareas de generación y edición de modelos, y logra la unificación de las dos funciones centrales a través de una pipeline de preentrenamiento de escena completa que integra datos de generación y edición.

Esta unificación trae ventajas clave: evita la complejidad y la pérdida de rendimiento de los modelos tradicionales al cambiar entre tareas de generación y edición, al mismo tiempo que permite el uso multi-tarea de herramientas como los adaptadores LoRA, proporcionando a los desarrolladores herramientas de código abierto más flexibles y reduciendo la dependencia de múltiples variantes de modelos especializados. Los usuarios de la comunidad ya han captado con agudeza este cambio, refiriéndose a él como "Omni Base" en sus discusiones, destacando su atributo "todo-en-uno" en lugar de ser simplemente un modelo base de generación.


Actualizaciones de la serie Z-Image

Además del más llamativo Omni Base, la serie Z-Image también ha añadido una nueva variante de rama Z-Image:

Actualmente la serie incluye cuatro variantes principales:

Z-Image 系列对比

Esta tabla destaca las características equilibradas de Omni Base, lo que lo hace adecuado para desarrolladores que buscan una base de modelo personalizable. Las integraciones de la comunidad, como stable-diffusion.cpp, mejoran aún más la accesibilidad, permitiendo ejecutar versiones cuantificadas en hardware como RTX 3090.

Los benchmarks de rendimiento en el informe de arXiv muestran que Z-Image compite con sistemas comerciales en términos de realismo fotográfico y renderizado de texto. Por ejemplo, el ranking en la lista de clasificación de Turbo destaca la competitividad de la serie, y se espera que Omni Base construya sobre esta base con su paradigma omni, posiblemente habilitando extensiones como la generación de video (aunque no confirmado).

Evidencia que apunta a un próximo lanzamiento

Las discusiones en la comunidad se han intensificado en las últimas semanas, especialmente en los subforos r/StableDiffusion y r/LocalLLaMA de Reddit. Según las publicaciones del 8 de enero de 2026, los usuarios destacaron los preparativos para Z-Image-Omni-Base. Por ejemplo, un hilo con el título "Z-Image OmniBase looking like it's gonna release soon" citó un commit clave en el repositorio ModelScope DiffSynth-Studio, aproximadamente en el mismo período. Este commit añadió soporte completo para Omni Base, incluyendo:

  • Nuevas configuraciones de modelo para Z-Image-Omni-Base, Siglip2ImageEncoder428M (modelo visual de 428M parámetros), ZImageControlNet y ZImageImage2LoRAModel.
  • Actualizaciones en la gestión de VRAM para un envoltorio de capas eficiente, permitiendo inferencia de baja VRAM.
  • Modificaciones en la pipeline base para manejar LoRA de solo avance y funciones de modelo guía.
  • Scripts de inferencia y entrenamiento especializados, como Z-Image-Omni-Base.py y archivos .sh, para validación de modelo y condicionamiento de ControlNet.

Z-ImageOmniBase提交
Estos cambios indican que el marco se está alineando para su uso inmediato después del lanzamiento de los pesos. Otro post de Reddit "Z-image Omni 👀" discutió el impacto del commit, notando el soporte nativo de Image-to-LoRA y la compatibilidad de día cero con ControlNet. Los usuarios especulan que Omni Base servirá como base para el entrenamiento de LoRA, posiblemente superando a Turbo en versatilidad mientras complementa su flujo de trabajo orientado a la velocidad.

El repositorio oficial de GitHub de Tongyi-MAI/Z-Image ha generado aún más optimismo. Actualizado recientemente el 7 de enero de 2026, enumera explícitamente Z-Image-Omni-Base como "próximo a lanzarse" en Hugging Face y ModelScope. Los commits recientes incluyen descarga automática de checkpoints y backends de atención configurables, construidos sobre el commit inicial del 26 de noviembre de 2025. La integración con Hugging Face Diffusers (a través de PR #12703 y #12715) asegura una adopción sin fisuras.