January 9, 2026(Updated 2/5/2026)

Z-Image Omni Base 真的要來了！統一生成與編輯的全能 AI 模型即將登場

Author: z-image.me Team•5 min read

Z-Image Omni Base 真的要來了！統一生成與編輯的全能 AI 模型即將登場

z-image 最新動向引爆社群

近期，AI 圖像生成領域的社群討論熱度被一個名字持續點燃 ——Z-Image Omni Base。從 Reddit 社群中「Z-Image Base 模型即將兌現承諾」「ZImage Omni 將至」「Omni Base 看來要發布」等熱議話題，到官方資訊的逐步披露，這款備受期待的全能基礎模型終於迎來了明確的登場信號，其到來將為 AI 圖像生成與編輯領域帶來重要變革。

Z-Image Omni Base 是阿里巴巴 Tongyi-MAI 團隊 Z-Image 系列的演進，從最初的 Z-Image-Base 轉向強調「omni」預訓練。這種方法允許無縫處理文字到圖像 (T2I) 生成和圖像到圖像 (I2I) 編輯，而不會因任務切換而降低性能。它基於 6B 參數的可擴展單流擴散 Transformer (S3-DiT)，在統一流中處理文字、視覺語義令牌和圖像 VAE 令牌，支援中英雙語能力。

命名背後的戰略升級：從「Base」到「Omni Base」的本質跨越

這款模型的登場並非簡單的版本迭代，而是一次核心戰略的升級。正如我之前的分析（原文連結：https://z-image.me/en/blog/Not_Z-Image-Base_but_Z-Image-Omni-Base），原本計畫推出的 Z-Image-Base 已正式更名為 Z-Image-Omni-Base。這一命名變更絕非標籤調整，而是象徵著模型架構向「全能（omni）」預訓練的戰略轉型 —— 它打破了傳統模型生成與編輯任務分離的壁壘，透過整合生成與編輯資料的全場景預訓練流水線，實現了兩大核心功能的統一。

這種統一帶來了關鍵優勢：避免了傳統模型在切換生成與編輯任務時的複雜性和性能損耗，同時讓 LoRA 適配器等工具的跨任務使用成為可能，為開發者提供了更靈活的开源工具，減少對多個專用變體模型的依賴。社群用戶早已敏銳捕捉到這一變化，在討論中紛紛以「Omni Base」相稱，凸顯其「全能」屬性而非單純的生成基礎模型。

Z-Image 系列更新

此次除了最引人矚目的 Omni Base，Z-Image 系列還增加了新的變體分支Z-Image：

目前系列包括四個主要變體：

此表格突出了 Omni Base 的平衡特性，使其適合尋求自定義模型基礎的開發者。社群整合，如 stable-diffusion.cpp，進一步提升可及性，允許在如 RTX 3090 的硬體上運行量化版本。

arXiv 報告中的性能基準顯示 Z-Image 與商業系統在照片真實性和文字渲染中匹敵。例如，Turbo 的排行榜排名突出了系列的競爭力，Omni Base 預計透過其 omni 範式在此基礎上建構，可能啟用如視頻生成等擴展（雖未確認）。

指向即將發布的證據

社群討論在最近幾週加劇，尤其在 Reddit 的 r/StableDiffusion 和 r/LocalLLaMA 子版塊中。從 2026 年 1 月 8 日的貼文看，用戶突出 Z-Image-Omni-Base 的準備工作。例如，標題為「Z-Image OmniBase looking like it's gonna release soon」的線程引用了 ModelScope DiffSynth-Studio 倉庫中的關鍵提交，大約同一時期。這個提交添加了對 Omni Base 的全面支援，包括：

Z-Image-Omni-Base、Siglip2ImageEncoder428M（428M 參數視覺模型）、ZImageControlNet 和 ZImageImage2LoRAModel 的新模型配置。
VRAM 管理的更新，用於高效層包裝，實現低 VRAM 推理。
基礎管道的修改，用於處理僅正向 LoRA 和引導模型函數。
專用推理和訓練腳本，如 Z-Image-Omni-Base.py 和 .sh 檔案，針對模型驗證和 ControlNet 條件化。

這些變化表明框架正在為權重發布後立即使用而對齊。另一個 Reddit 貼文「Z-image Omni 👀」討論了提交的影響，注意到原生 Image-to-LoRA 支援和零日 ControlNet 相容性。用戶推測 Omni Base 將作為 LoRA 訓練的基礎，可能在多功能性上超越 Turbo，同時補充其速度導向工作流。

官方 Tongyi-MAI/Z-Image GitHub 倉庫進一步激發樂觀情緒。最近於 2026 年 1 月 7 日更新，它明確將 Z-Image-Omni-Base 列為「待發布」在 Hugging Face 和 ModelScope 上。最近提交包括自動檢查點下載和可配置注意力後端的增強，建立在 2025 年 11 月 26 日的初始提交基礎上。與 Hugging Face Diffusers 的整合（透過 PR #12703 和 #12715）確保無縫採用。