仅间隔9天 ZIT Controlnet 就发布了2.0版本!?

仅间隔9天 ZIT Controlnet 就发布了2.0版本!?

Author: Z-Image.me4 min read
Z-ImageControlNetAI图像生成Inpainting阿里巴巴ComfyUI图像编辑扩散模型

仅间隔9天 ZIT Controlnet 就发布了2.0版本!?

前言

最近,阿里巴巴在图像生成模型领域动作频频,才刚改了 z-image base 的命名(不是 Z-Image-Base,而是Z-Image-Omni-Base),12 月14 号又匆匆的发布了Z-Image-Turbo-Fun-Controlnet-Union-2.0
要知道,这距离 Z-Image-Turbo ControlNet Union 1.0 的发布,仅仅过去了9天,不免让人怀疑,这么加紧迭代,是否有什么秘密?
身为局外者我们很难知晓准确的信息,但是我们可以从更新内容中窥探一二,闲话少说,我们来看看更新内容:

关键更新信息与功能

2.0 发布强调可靠性和创意。以下是内部内容:

  • 支持的控制模式:处理标准输入如 Canny(边缘检测用于轮廓)、HED(柔和边缘用于艺术效果)、Depth(从地图获取 3D 结构)、Pose(人类或物体定位)和 MLSD(直线用于建筑)。这些允许您“条件化”AI——例如,提供粗略草图,模型生成匹配的精致图像。

  • 内绘模式:重大新增!这允许您掩码并编辑图像特定区域(例如,更换背景而不改变前景)。然而,用户指出有时会模糊未掩码区域,因此 ComfyUI 的掩码工具有助于精炼结果。

  • 可调参数:调整 control_context_scale(推荐 0.65–0.90)以平衡 AI 遵循控制的严格程度。更高值需要更多推理步骤(例如 20–40)以获得清晰输出,避免过度控制导致细节扭曲。

  • 训练基础:从零训练 70,000 步,使用 100 万张高质量图像(一般场景和以人为中心的混合)。使用 1328 分辨率、BFloat16 精度、批次大小 64 和学习率 2e-5。“Fun”名称暗示其趣味、创意重点,文本 dropout 比率 0.10 以鼓励多样提示。

与上一版本(1.0)的比较

前一版本 Z-Image-Turbo-Fun-Controlnet-Union(常称为 1.0)奠定基础,但有局限。 它在类似 100 万图像数据集上训练仅 10,000 步,仅添加 6 个块,导致重新训练偶尔错误和加载时间较慢。用户常需变通方法实现有效控制,且无内绘可用。

相比之下,2.0 感觉像从基本自行车升级到齿轮自行车:更多层(15 + 2 精炼)意味着更精细控制,更长训练提升质量,内绘开启新编辑可能性。它解决 1.0 所有报告问题,如稳定性故障,同时保持相同核心控制。 扩展训练和精炼块改善细节保留,尤其在人类姿势或复杂场景中,尽管自定义训练可能需 24GB+ VRAM。

维度 版本 1.0 版本 2.0 为什么重要
训练步骤 10,000 70,000 更长训练导致更精炼、现实输出,减少伪影。
数据集重点 100 万高质量图像(一般) 100 万高质量图像(一般 + 以人为中心) 更好处理人物和姿势,减少常见 AI 缺陷如扭曲手部。
控制层 添加在 6 个块上 添加在 15 个层块 + 2 个精炼块上 更深集成用于更平滑控制融合,提升整体图像连贯性。
Inpainting支持 完整支持带掩码 启用针对编辑,如修复背景——对迭代设计是变革。
分辨率与精度 基本(未指定) 1328 分辨率,BFloat16 精度 更高分辨率支持细节生成;BFloat16 优化现代 GPU 速度。
批次大小与学习率 未详细说明 批次大小 64,学习率 2e-5 大数据集高效训练,实际中转化为更快推理。
控制调整 基本强度调整 可调 control_context_scale (0.65–0.90);步骤推荐 更多用户控制平衡,避免过度或不足输入遵守。
问题与性能 重新训练错误、加载缓慢;需技巧使用 所有问题解决;轻微加载权衡但更好稳定性 使 ComfyUI 等工作流更可靠,社区快速修复。
硬件注意 较低要求但优化不足 受益于 8GB+ VRAM;未蒸馏(需更多步骤) 适合中档设置,但专业人士可进一步调整。

总结

这次升级在质量和功能上有所提升,包括支持 Inpainting 模式和更长的训练步骤,这是一个渐进式更新,解决了前版的部分问题,如训练错误和加载缓慢,使模型在创意任务中更可靠。虽然性能更好,但复杂场景(如手部姿势)可能仍需手动优化,且硬件要求较高。

感觉更应该叫 V1.1 或者V1.5 而不是 V2.0,我不负责的主观推测,目前积极的更新与升级,可能为了更快的推出 z-image-omni-base,通过模块化升级的方法,分布迭代,推动整体能力的统一提升。

无论如何,期望阿里巴巴可以保持z-image的良好势头,无限降低 AI 门槛,让更多人可以享受到 AI 的便利。

引用信息