Z-Image Omni Base 真的要来了!统一生成与编辑的全能 AI 模型即将登场

Z-Image Omni Base 真的要来了!统一生成与编辑的全能 AI 模型即将登场

作者: Z-Image.me3 min read
Z-ImageOmni BaseAI模型图像生成图像编辑Tongyi-MAIModelScopeAI资讯

Z-Image Omni Base 真的要来了!统一生成与编辑的全能 AI 模型即将登场

z-image 最新动向引爆社区

近期,AI 图像生成领域的社区讨论热度被一个名字持续点燃 ——Z-Image Omni Base。从 Reddit 社区中 “Z-Image Base 模型即将兑现承诺”“ZImage Omni 将至”“Omni Base 看起来要发布了” 等热议话题,到官方信息的逐步披露,这款备受期待的全能基础模型终于迎来了明确的登场信号,其到来将为 AI 图像生成与编辑领域带来重要变革。

TongyiLab的动态

Z-Image Omni Base 概述

Z-Image Omni Base 是阿里巴巴 Tongyi-MAI 团队 Z-Image 系列的演进,从最初的 Z-Image-Base 转向强调“omni”预训练。这种方法允许无缝处理文本到图像 (T2I) 生成和图像到图像 (I2I) 编辑,而不会因任务切换而降低性能。它基于 6B 参数的可扩展单流扩散 Transformer (S3-DiT),在统一流中处理文本、视觉语义令牌和图像 VAE 令牌,支持中英双语能力。

命名背后的战略升级:从 “Base” 到 “Omni Base” 的本质跨越

这款模型的登场并非简单的版本迭代,而是一次核心战略的升级。正如 我之前的分析(原文链接:https://z-image.me/en/blog/Not_Z-Image-Base_but_Z-Image-Omni-Base),原本计划推出的 Z-Image-Base 已正式更名为 Z-Image-Omni-Base。这一命名变更绝非标签调整,而是象征着模型架构向 “全能(omni)” 预训练的战略转型 —— 它打破了传统模型生成与编辑任务分离的壁垒,通过整合生成与编辑数据的全场景预训练流水线,实现了两大核心功能的统一。

这种统一带来了关键优势:避免了传统模型在切换生成与编辑任务时的复杂性和性能损耗,同时让 LoRA 适配器等工具的跨任务使用成为可能,为开发者提供了更灵活的开源工具,减少了对多个专用变体模型的依赖。社区用户早已敏锐捕捉到这一变化,在讨论中纷纷以 “Omni Base” 相称,凸显其 “全能” 属性而非单纯的生成基础模型。


Z-Image 系列更新

此次除了最引人瞩目的 Omni Base,Z-Image 系列还增加了新的变体分支Z-Image:

目前系列包括四个主要变体:

Z-Image 系列对比

此表格突出了 Omni Base 的平衡特性,使其适合寻求自定义模型基础的开发者。社区集成,如 stable-diffusion.cpp,进一步提升可访问性,允许在如 RTX 3090 的硬件上运行量化版本。

arXiv 报告中的性能基准显示 Z-Image 与商业系统在照片真实性和文本渲染中匹敌。例如,Turbo 的排行榜排名突出了系列的竞争力,Omni Base 预计通过其 omni 范式在此基础上构建,可能启用如视频生成等扩展(虽未确认)。

指向即将发布的证据

社区讨论在最近几周加剧,尤其在 Reddit 的 r/StableDiffusion 和 r/LocalLLaMA 子版块中。从 2026 年 1 月 8 日的帖子看,用户突出 Z-Image-Omni-Base 的准备工作。例如,标题为“Z-Image OmniBase looking like it's gonna release soon”的线程引用了 ModelScope DiffSynth-Studio 仓库中的关键提交,大约同一时期。这个提交添加了对 Omni Base 的全面支持,包括:

  • Z-Image-Omni-Base、Siglip2ImageEncoder428M(428M 参数视觉模型)、ZImageControlNet 和 ZImageImage2LoRAModel 的新模型配置。
  • VRAM 管理的更新,用于高效层包装,实现低 VRAM 推理。
  • 基础管道的修改,用于处理仅正向 LoRA 和引导模型函数。
  • 专用推理和训练脚本,如 Z-Image-Omni-Base.py 和 .sh 文件,针对模型验证和 ControlNet 条件化。

Z-ImageOmniBase提交
这些变化表明框架正在为权重发布后立即使用而对齐。另一个 Reddit 帖子“Z-image Omni 👀”讨论了提交的影响,注意到原生 Image-to-LoRA 支持和零日 ControlNet 兼容性。用户推测 Omni Base 将作为 LoRA 训练的基础,可能在多功能性上超越 Turbo,同时补充其速度导向工作流。

官方 Tongyi-MAI/Z-Image GitHub 仓库进一步激发乐观情绪。最近于 2026 年 1 月 7 日更新,它明确将 Z-Image-Omni-Base 列为“待发布”在 Hugging Face 和 ModelScope 上。最近提交包括自动检查点下载和可配置注意力后端的增强,建立在 2025 年 11 月 26 日的初始提交基础上。与 Hugging Face Diffusers 的集成(通过 PR #12703 和 #12715)确保无缝采用。

热门提示词

发现更多创意灵感