
Всего через 9 дней после релиза ZIT Controlnet выпустил версию 2.0!?
Всего за 9 дней ZIT Controlnet выпустил версию 2.0!?
Предисловие
Недавно Alibaba активно действовал в области генерации изображений, только что сменив название z-image base (не Z-Image-Base, а Z-Image-Omni-Base), а 14 декабря поспешно выпустил Z-Image-Turbo-Fun-Controlnet-Union-2.0
要知道,这距离 Z-Image-Turbo ControlNet Union 1.0 的发布,仅仅过去了9天,不免让人怀疑,这么加紧迭代,是否有什么秘密?
身为局外者我们很难知晓准确的信息,但是我们可以从更新内容中窥探一二,闲话少说,我们来看看更新内容:
Ключевые обновления и функции
Версия 2.0 подчеркивает надежность и креативность. Вот основные изменения:
-
Поддерживаемые режимы управления: обработка стандартных входных данных, таких как Canny (обнаружение краев для контуров), HED (мягкие края для художественных эффектов), Depth (получение 3D-структуры из карты), Pose (позиционирование человека или объекта) и MLSD (прямые линии для архитектуры). Это позволяет "условить" ИИ — например, предоставив грубый набросок, модель генерирует соответствующее изысканное изображение.
-
Режим inpainting: важное нововведение! Это позволяет маскировать и редактировать определенные области изображения (например, менять фон, не изменяя передний план). Однако пользователи отмечают, что иногда необработанные маски области становятся размытыми, поэтому инструменты маскирования в ComfyUI помогают уточнить результат.
-
Настраиваемые параметры: настройте
control_context_scale(рекомендуется 0.65–0.90), чтобы сбалансировать степень строгости, с которой ИИ следует управлениям. Более высокие значения требуют большего количества шагов вывода (например, 20–40) для получения четкого вывода, избегая искажения деталей из-за чрезмерного управления. -
База обучения: обучение с нуля в течение 70 000 шагов с использованием 1 миллиона высококачественных изображений (смесь общих сцен и ориентированных на человека). Использовалось разрешение 1328, точность BFloat16, размер пакета 64 и скорость обучения 2e-5. Название "Fun" намекает на его развлекательный и творческий акцент, с соотношением dropout текста 0.10 для поощрения разнообразных подсказок.
Сравнение с предыдущей версией (1.0)
Предыдущая версия Z-Image-Turbo-Fun-Controlnet-Union (часто называемая 1.0) заложила основу, но имела ограничения. Она обучалась всего на 10 000 шагов на аналогичном наборе данных из 1 миллиона изображений, добавляя только 6 блоков, что приводило к периодическим ошибкам при повторном обучении и более медленной загрузке. Пользователям часто приходилось использовать обходные пути для эффективного управления, а режим inpainting был недоступен.
В сравнении с этим, 2.0 ощущается как переход от базового велосипеда к велосипеду с передачами: больше слоев (15 + 2 уточняющих) означает более тонкий контроль, более длительное обучение повышает качество, а inpaint открывает новые возможности редактирования. Он решает все-reported проблемы версии 1.0, такие сбои стабильности, сохраняя при том же базовом управлении. Расширенное обучение и уточняющие блоки улучшают сохранение деталей, особенно в позах человека или сложных сценах, хотя пользовательское обучение может потребовать 24 ГБ+ VRAM.
| Параметр | Версия 1.0 | Версия 2.0 | Почему это важно |
|---|---|---|---|
| Шаги обучения | 10 000 | 70 000 | Более длительное обучение приводит к более отточенным и реалистичным выводам, уменьшая артефакты. |
| Фокус набора данных | 1 млн высококачественных изображений (общие) | 1 млн высококачественных изображений (общие + ориентированные на человека) | Лучшая обработка людей и поз, уменьшая распространенные недостатки ИИ, такие как искаженные руки. |
| Слои управления | Добавлено в 6 блоках | Добавлено в 15 слоях + 2 уточняющих блоках | Более глубокая интеграция для более плавного слияния управления, улучшения общей связности изображения. |
| Поддержка Inpainting | Отсутствует | Полная поддержка с масками | Включает целевое редактирование, например, исправление фона — революция для итеративного дизайна. |
| Разрешение и точность | Базовое (не указано) | Разрешение 1328, точность BFloat16 | Более высокое разрешение поддерживает генерацию деталей; BFloat16 оптимизирует скорость на современных GPU. |
| Размер пакета и скорость обучения | Не указано подробно | Размер пакета 64, скорость обучения 2e-5 | Эффективное обучение на больших наборах данных, что на практике преобразуется в более быстрый вывод. |
| Настройки управления | Базовая настройка интенсивности | Настраиваемый control_context_scale (0.65–0.90); рекомендации по шагам |
Больше пользовательского контроля для баланса, избегая чрезмерного или недостаточного следования вводным данным. |
| Проблемы и производительность | Ошибки повторного обучения, медленная загрузка; требуются хитрости использования | Все проблемы решены; незначительный компромисс в загрузке, но лучшая стабильность | Делает рабочие процессы, такие как ComfyUI, более надежными, с быстрым исправлением сообществом. |
| Требования к оборудованию | Более низкие, но недостаточно оптимизированные | Выгодно при 8 ГБ+ VRAM; не дистиллированный (требует больше шагов) | Подходит для среднего уровня, но профессионалы могут дополнительно настраивать. |
Заключение
Это обновление улучшило качество и функциональность, включая поддержку режима inpainting и более длительные шаги обучения — это渐进ное обновление, которое решает некоторые проблемы предыдущей версии, такие как ошибки обучения и медленная загрузка, делая модель более надежной для творческих задач. Хотя производительность лучше, сложные сцены (например, позы рук) могут по-прежнему требовать ручной оптимизации, а требования к оборудованию выше.
Кажется, что это больше подходит для названия V1.1 или V1.5, а не V2.0 — это мое субъективное предположение. Текущие активные обновления и улучшения могут быть направлены на более быстрый推出 z-image-omni-base, используя метод модульного обновления для распределенной итерации и содействия общему повышению возможностей.
В любом случае, надеюсь, Alibaba сможет сохранить хорошую динамику развития z-image, бесконечно снижая порог входа в ИИ, чтобы больше людей могли пользоваться удобствами ИИ.