December 14, 2025(Updated 2/6/2026)

不是 Z-Image-Base，而是 Z-Image-Omni-Base

Author: z-image.me Team•5 min read

不是 Z-Image-Base，而是Z-Image-Omni-Base

在AI圖像生成技術的迅猛演進中，阿里巴巴的Tongyi-MAI團隊推出的Z-Image系列模型以其高效的6B參數規模和照片級真實感脫穎而出。然而，作者最近觀察到在Z-Image的官網 Z-Image-blog中，原先的Z-Image-Base已悄然更名為Z-Image-Omni-Base （ModelScope和Hugging Face截止發稿前還沒有修改）。這一名稱修改並非簡單的標籤調整，而是象徵著模型架構向"omni"（全能）預訓練的戰略轉變：它強調了統一處理圖像生成和編輯任務的能力，避免了傳統模型在任務切換時的複雜性和性能損失。通過整合生成與編輯數據的omni預訓練管道，這一轉變意味著Z-Image-Omni-Base在參數效率上更進一步，支持無縫的多模態應用，如LoRA適配器的跨任務使用，從而為開發者提供更靈活的开源工具，減少了需要多個專用變體的需求。

Z-Image系列的興起：從基礎到Omni的演進

Z-Image系列的核心架構是Scalable Single-Stream Diffusion Transformer (S3-DiT)，所有變體均採用統一的輸入流設計，將文本、視覺語義令牌和圖像VAE令牌串聯處理。這使得模型在多語言（中英）文本渲染和指令遵循方面表現出色。根據最新技術報告（arXiv:2511.22699，2025年12月1日發布），omni預訓練是關鍵創新，它統一了生成和編輯流程，避免了雙流架構的冗餘。社區討論中，這一omni特性促使社區用戶將基礎版稱為Z-Image-Omni-Base，突出其全能性，而非單純的生成基礎模型。

最新動態顯示，Z-Image-Turbo已於2025年11月26日發布，權重開源於Hugging Face和ModelScope，並提供在線演示空間。相比之下，Z-Image-Omni-Base和Z-Image-Edit的權重仍處於"即將發布"狀態（GitHub倉庫無11月後更新），社區預計這一延遲與進一步優化omni功能相關。用戶反饋（如Reddit討論）讚賞Turbo的亞秒級推理速度（H800 GPU上，支持8步推理和CFG=1），但也指出Omni-Base的統一能力在複雜任務中更具優勢，例如生成多樣化圖像（如成分驅動的菜肴或數學圖表）並支持自然語言編輯，而無需模型切換。

版本對比：Omni-Base的獨特定位

為厘清名稱修改的含義，我們對比系列變體。所有模型共享6B參數和單流架構，但Omni-Base的omni預訓練使其在生成/編輯間無縫過渡，這一點在社區中被視為從"Base"到"Omni-Base"的本質轉變：它不僅提升了通用性，還允許LoRA等微調在統一框架下應用，避免了如Qwen-Image中生成與編輯的分離訓練。

特性/方面	Z-Image-Turbo (蒸餾版)	Z-Image-Omni-Base (基礎Omni版)	Z-Image-Edit (編輯版)
主要能力	快速生成、多語言渲染；亞秒級速度。	統一生成/編輯；高多樣性和真實感，支持omni LoRA。	精確編輯、強指令遵循。
速度與需求	最快，消費級GPU (<16GB VRAM)支持。	較慢，但靈活性高；需>20步推理。	中等，專注編輯效率。
基準性能	開源SOTA，在Alibaba AI Arena領先。	質量優於Turbo，但未發布基準；omni訓練提升通用性。	編輯精度突出，避免漂移。
優勢	適合快速迭代；社區工具集成廣。	Omni預訓練無縫任務切換；替代Qwen-Image的統一方案。	創意重繪，尊重約束。
劣勢	編輯需自定義工作流；細節偶有不足。	圖像可能"AI泛化"風格；nudity等特殊功能不確定。	生成不如Omni多樣。
適用場景	概念藝術、新聞可視化。	自定義開發、跨任務微調。	圖像修改、精確調整。

從表格可見，Omni-Base的定位在於其全能性：社區用戶指出，它可運行於RTX 3090等硬件，支持Q8_0量化，並在如nudity生成等邊緣功能上提供潛力（雖Turbo已支持，但Omni版需LoRA解鎖）。與更大模型如Qwen-Image（20B）相比，Z-Image系列更高效，但Omni-Base通過Decoupled-DMD和DMDR算法在細節和高頻渲染上競爭力強。

研發與未來：Omni預訓練的潛力

Z-Image系列由阿里巴巴Tongyi-MAI團隊研發，焦點在於參數效率和蒸餾技術。Omni預訓練的引入標誌著從分任務模型向統一框架的轉變，這一名稱修改（社區中已流行）預示著未來開源生態的趨勢：更少的變體分裂，更強的任務兼容性。目前，Turbo全面可用，而Omni-Base和Edit開發完成，權重發布延遲可能與優化相關。社區貢獻活躍，包括stable-diffusion.cpp集成（支持4GB VRAM）和對視擴展的推測，雖官方未確認。