December 16, 2025(Updated 2/6/2026)

Всего через 9 дней после релиза ZIT Controlnet выпустил версию 2.0!?

Author: z-image.me Team•5 min read

Всего за 9 дней ZIT Controlnet выпустил версию 2.0!?

Предисловие

Недавно Alibaba активно действовал в области генерации изображений, только что сменив название z-image base (не Z-Image-Base, а Z-Image-Omni-Base), а 14 декабря поспешно выпустил Z-Image-Turbo-Fun-Controlnet-Union-2.0
要知道，这距离 Z-Image-Turbo ControlNet Union 1.0 的发布，仅仅过去了9天，不免让人怀疑，这么加紧迭代，是否有什么秘密？
身为局外者我们很难知晓准确的信息，但是我们可以从更新内容中窥探一二，闲话少说，我们来看看更新内容：

Ключевые обновления и функции

Версия 2.0 подчеркивает надежность и креативность. Вот основные изменения:

Поддерживаемые режимы управления: обработка стандартных входных данных, таких как Canny (обнаружение краев для контуров), HED (мягкие края для художественных эффектов), Depth (получение 3D-структуры из карты), Pose (позиционирование человека или объекта) и MLSD (прямые линии для архитектуры). Это позволяет "условить" ИИ — например, предоставив грубый набросок, модель генерирует соответствующее изысканное изображение.
Режим inpainting: важное нововведение! Это позволяет маскировать и редактировать определенные области изображения (например, менять фон, не изменяя передний план). Однако пользователи отмечают, что иногда необработанные маски области становятся размытыми, поэтому инструменты маскирования в ComfyUI помогают уточнить результат.
Настраиваемые параметры: настройте control_context_scale (рекомендуется 0.65–0.90), чтобы сбалансировать степень строгости, с которой ИИ следует управлениям. Более высокие значения требуют большего количества шагов вывода (например, 20–40) для получения четкого вывода, избегая искажения деталей из-за чрезмерного управления.
База обучения: обучение с нуля в течение 70 000 шагов с использованием 1 миллиона высококачественных изображений (смесь общих сцен и ориентированных на человека). Использовалось разрешение 1328, точность BFloat16, размер пакета 64 и скорость обучения 2e-5. Название "Fun" намекает на его развлекательный и творческий акцент, с соотношением dropout текста 0.10 для поощрения разнообразных подсказок.

Сравнение с предыдущей версией (1.0)

Предыдущая версия Z-Image-Turbo-Fun-Controlnet-Union (часто называемая 1.0) заложила основу, но имела ограничения. Она обучалась всего на 10 000 шагов на аналогичном наборе данных из 1 миллиона изображений, добавляя только 6 блоков, что приводило к периодическим ошибкам при повторном обучении и более медленной загрузке. Пользователям часто приходилось использовать обходные пути для эффективного управления, а режим inpainting был недоступен.

В сравнении с этим, 2.0 ощущается как переход от базового велосипеда к велосипеду с передачами: больше слоев (15 + 2 уточняющих) означает более тонкий контроль, более длительное обучение повышает качество, а inpaint открывает новые возможности редактирования. Он решает все-reported проблемы версии 1.0, такие сбои стабильности, сохраняя при том же базовом управлении. Расширенное обучение и уточняющие блоки улучшают сохранение деталей, особенно в позах человека или сложных сценах, хотя пользовательское обучение может потребовать 24 ГБ+ VRAM.

Параметр	Версия 1.0	Версия 2.0	Почему это важно
Шаги обучения	10 000	70 000	Более длительное обучение приводит к более отточенным и реалистичным выводам, уменьшая артефакты.
Фокус набора данных	1 млн высококачественных изображений (общие)	1 млн высококачественных изображений (общие + ориентированные на человека)	Лучшая обработка людей и поз, уменьшая распространенные недостатки ИИ, такие как искаженные руки.
Слои управления	Добавлено в 6 блоках	Добавлено в 15 слоях + 2 уточняющих блоках	Более глубокая интеграция для более плавного слияния управления, улучшения общей связности изображения.
Поддержка Inpainting	Отсутствует	Полная поддержка с масками	Включает целевое редактирование, например, исправление фона — революция для итеративного дизайна.
Разрешение и точность	Базовое (не указано)	Разрешение 1328, точность BFloat16	Более высокое разрешение поддерживает генерацию деталей; BFloat16 оптимизирует скорость на современных GPU.
Размер пакета и скорость обучения	Не указано подробно	Размер пакета 64, скорость обучения 2e-5	Эффективное обучение на больших наборах данных, что на практике преобразуется в более быстрый вывод.
Настройки управления	Базовая настройка интенсивности	Настраиваемый `control_context_scale` (0.65–0.90); рекомендации по шагам	Больше пользовательского контроля для баланса, избегая чрезмерного или недостаточного следования вводным данным.
Проблемы и производительность	Ошибки повторного обучения, медленная загрузка; требуются хитрости использования	Все проблемы решены; незначительный компромисс в загрузке, но лучшая стабильность	Делает рабочие процессы, такие как ComfyUI, более надежными, с быстрым исправлением сообществом.
Требования к оборудованию	Более низкие, но недостаточно оптимизированные	Выгодно при 8 ГБ+ VRAM; не дистиллированный (требует больше шагов)	Подходит для среднего уровня, но профессионалы могут дополнительно настраивать.

Заключение

Это обновление улучшило качество и функциональность, включая поддержку режима inpainting и более длительные шаги обучения — это渐进ное обновление, которое решает некоторые проблемы предыдущей версии, такие как ошибки обучения и медленная загрузка, делая модель более надежной для творческих задач. Хотя производительность лучше, сложные сцены (например, позы рук) могут по-прежнему требовать ручной оптимизации, а требования к оборудованию выше.

Кажется, что это больше подходит для названия V1.1 или V1.5, а не V2.0 — это мое субъективное предположение. Текущие активные обновления и улучшения могут быть направлены на более быстрый推出 z-image-omni-base, используя метод модульного обновления для распределенной итерации и содействия общему повышению возможностей.

В любом случае, надеюсь, Alibaba сможет сохранить хорошую динамику развития z-image, бесконечно снижая порог входа в ИИ, чтобы больше людей могли пользоваться удобствами ИИ.