
Z-Image Omni Base 真的要來了!統一生成與編輯的全能 AI 模型即將登場
Z-Image Omni Base 真的要來了!統一生成與編輯的全能 AI 模型即將登場
z-image 最新動向引爆社群
近期,AI 圖像生成領域的社群討論熱度被一個名字持續點燃 ——Z-Image Omni Base。從 Reddit 社群中 「Z-Image Base 模型即將兌現承諾」「ZImage Omni 將至」「Omni Base 看來要發布」 等熱議話題,到官方資訊的逐步披露,這款備受期待的全能基礎模型終於迎來了明確的登場信號,其到來將為 AI 圖像生成與編輯領域帶來重要變革。

Z-Image Omni Base 概述
Z-Image Omni Base 是阿里巴巴 Tongyi-MAI 團隊 Z-Image 系列的演進,從最初的 Z-Image-Base 轉向強調「omni」預訓練。這種方法允許無縫處理文字到圖像 (T2I) 生成和圖像到圖像 (I2I) 編輯,而不會因任務切換而降低性能。它基於 6B 參數的可擴展單流擴散 Transformer (S3-DiT),在統一流中處理文字、視覺語義令牌和圖像 VAE 令牌,支援中英雙語能力。
命名背後的戰略升級:從 「Base」 到 「Omni Base」 的本質跨越
這款模型的登場並非簡單的版本迭代,而是一次核心戰略的升級。正如 我之前的分析(原文連結:https://z-image.me/en/blog/Not_Z-Image-Base_but_Z-Image-Omni-Base),原本計畫推出的 Z-Image-Base 已正式更名為 Z-Image-Omni-Base。這一命名變更絕非標籤調整,而是象徵著模型架構向 「全能(omni)」 預訓練的戰略轉型 —— 它打破了傳統模型生成與編輯任務分離的壁壘,透過整合生成與編輯資料的全場景預訓練流水線,實現了兩大核心功能的統一。
這種統一帶來了關鍵優勢:避免了傳統模型在切換生成與編輯任務時的複雜性和性能損耗,同時讓 LoRA 適配器等工具的跨任務使用成為可能,為開發者提供了更靈活的开源工具,減少對多個專用變體模型的依賴。社群用戶早已敏銳捕捉到這一變化,在討論中紛紛以 「Omni Base」 相稱,凸顯其 「全能」 屬性而非單純的生成基礎模型。
Z-Image 系列更新
此次除了最引人矚目的 Omni Base,Z-Image 系列還增加了新的變體分支Z-Image:
目前系列包括四個主要變體:

此表格突出了 Omni Base 的平衡特性,使其適合尋求自定義模型基礎的開發者。社群整合,如 stable-diffusion.cpp,進一步提升可及性,允許在如 RTX 3090 的硬體上運行量化版本。
arXiv 報告中的性能基準顯示 Z-Image 與商業系統在照片真實性和文字渲染中匹敵。例如,Turbo 的排行榜排名突出了系列的競爭力,Omni Base 預計透過其 omni 範式在 此基礎上建構,可能啟用如視頻生成等擴展(雖未確認)。
指向即將發布的證據
社群討論在最近幾週加劇,尤其在 Reddit 的 r/StableDiffusion 和 r/LocalLLaMA 子版塊中。從 2026 年 1 月 8 日的貼文看,用戶突出 Z-Image-Omni-Base 的準備工作。例如,標題為「Z-Image OmniBase looking like it's gonna release soon」的線程引用了 ModelScope DiffSynth-Studio 倉庫中的關鍵提交,大約同一時期。這個提交添加了對 Omni Base 的全面支援,包括:
- Z-Image-Omni-Base、Siglip2ImageEncoder428M(428M 參數視覺模型)、ZImageControlNet 和 ZImageImage2LoRAModel 的新模型配置。
- VRAM 管理的更新,用於高效層包裝,實現低 VRAM 推理。
- 基礎管道的修改,用於處理僅正向 LoRA 和引導模型函數。
- 專用推理和訓練腳本,如 Z-Image-Omni-Base.py 和 .sh 檔案,針對模型驗證和 ControlNet 條件化。

這些變化表明框架正在為權重發布後立即使用而對齊。另一個 Reddit 貼文「Z-image Omni 👀」討論了提交的影響,注意到原生 Image-to-LoRA 支援和零日 ControlNet 相容性。用戶推測 Omni Base 將作為 LoRA 訓練的基礎,可能在多功能性上超越 Turbo,同時補充其速度導向工作流。
官方 Tongyi-MAI/Z-Image GitHub 倉庫進一步激發樂觀情緒。最近於 2026 年 1 月 7 日更新,它明確將 Z-Image-Omni-Base 列為「待發布」在 Hugging Face 和 ModelScope 上。最近提交包括自動檢查點下載和可配置注意力後端的增強,建立在 2025 年 11 月 26 日的初始提交基礎上。與 Hugging Face Diffusers 的整合(透過 PR #12703 和 #12715)確保無縫採用。