December 16, 2025(Updated 2/6/2026)

단 9일 만에 ZIT Controlnet 2.0 버전 출시!?

Author: z-image.me Team•5 min read

단 9일 만에 ZIT Controlnet이 2.0 버전을 출시했습니다!?

서론

최근 알리바바는 이미지 생성 모델 분야에서 활발한 활동을 보이고 있습니다. 방금 전에 z-image base의 명칭을 변경했을 뿐(Z-Image-Base가 아니라 Z-Image-Omni-Base), 12월 14일에는 Z-Image-Turbo-Fun-Controlnet-Union-2.0을 서둘러 출시했습니다.

이는 Z-Image-Turbo ControlNet Union 1.0 출시로부터 단 9일 만의 일입니다. 이렇게 빠른 속도로 반복 업데이트를 진행하는 데에는 무슨 비밀이 있을까요?

외부인으로서 정확한 정보를 알기는 어렵지만, 업데이트 내용을 통해 어느 정도 엿볼 수 있습니다. 말을 줄이고 바로 업데이트 내용을 살펴보겠습니다:

주요 업데이트 정보 및 기능

2.0 출시는 신뢰성과 창의성을 강조합니다. 내용은 다음과 같습니다:

지원되는 제어 모드: Canny(윤곽선을 위한 가장자리 감지), HED(예술적 효과를 위한 부드러운 가장자리), Depth(맵에서 3D 구조 가져오기), Pose(인간이나 물체 위치 지정) 및 MLSD(건축을 위한 직선)와 같은 표준 입력 처리. 이를 통해 AI를 "조건화"할 수 있습니다. 예를 들어, 거친 스케치를 제공하면 모델이 일치하는 정교한 이미지를 생성합니다.
내부 그리기 모드: 중요한 신규 기능 추가! 이를 통해 마스크를 사용하여 이미지의 특정 영역을 편집할 수 있습니다(예: 전경을 변경하지 않고 배경 변경). 그러나 사용자는 때로는 마스크되지 않은 영역이 흐려지는 지적이 있으므로 ComfyUI의 마스크 도구가 결과를 정교화하는 데 도움이 됩니다.
조정 가능한 매개변수: control_context_scale(권장 0.65–0.90)을 조정하여 AI가 제어를 따르는 엄격성을 균형을 맞출 수 있습니다. 더 높은 값은 명확한 출력을 위해 더 많은 추론 단계(예: 20–40)가 필요하며, 과도한 제어로 인해 세부 иск형 иск형되는 것을 방지합니다.
훈련 기반: 70,000단계로 처음부터 훈련, 100만 장의 고품질 이미지(일반 장면과 인간 중심의 혼합) 사용. 1328 해상도, BFloat16 정밀도, 배치 크기 64 및 학습률 2e-5 사용. "Fun" 이름은 재미와 창의성 중점을 암시하며, 다양한 프롬프트를 장려하기 위해 텍스트 드롭아웃 비율 0.10을 사용합니다.

이전 버전인 Z-Image-Turbo-Fun-Controlnet-Union(통상 1.0이라 함)은 기초를 다졌지만 한계가 있었습니다. 유사한 100만 이미지 데이터셋에서 10,000단계만 훈련되었으며, 6개 블록만 추가되어 재훈련 시 오류가 발생하고 로딩 시간이 느렸습니다. 사용자는 종종 효과적인 제어를 구현하기 위해 우회 방법을 사용해야 했으며, 내부 그리기 기능은 사용할 수 없었습니다.

반면에 2.0은 기본 자전거에서 기어 자전거로 업그레이드하는 것처럼 느껴집니다: 더 많은 레이어(15 + 2개 정제)는 더 세밀한 제어를 의미하며, 더 긴 훈련이 품질을 향상시키고 내부 그리기는 새로운 편집 가능성을 열어줍니다. 1.0의 모든 보고된 문제(안정성 오류 등)를 해결하면서 동일한 핵심 제어를 유지합니다. 확장된 훈련과 정제 블록은 특히 인간 자세나 복잡한 장면에서 세부 사항 보존을 개선하지만, 사용자 정의 훈련에는 24GB+ VRAM이 필요할 수 있습니다.

차원	버전 1.0	버전 2.0	중요한 이유
훈련 단계	10,000	70,000	더 긴 훈련이 더 정교하고 현실적인 출력을 생성하며 아티팩트를 줄입니다.
데이터셋 초점	100만 고품질 이미지(일반)	100만 고품질 이미지(일반 + 인간 중심)	인간과 자세 처리가 개선되고, 왜곡된 손과 같은 일반적인 AI 결함이 감소합니다.
제어 레이어	6개 블록에 추가	15개 레이어 블록 + 2개 정제 블록에 추가	더 깊은 통합으로 더 부드러운 제어 융합을 가능하게 하며 전체 이미지 일관성을 향상시킵니다.
인페인팅 지원	없음	마스크와 함께 완전 지원	배경 수정과 같은 편집을 가능하게 함 - 반복 설계에 혁신적입니다.
해상도 및 정밀도	기본(미지정)	1328 해상도, BFloat16 정밀도	더 높은 해상도로 세부 생성 지원; BFloat16이 최신 GPU 속도를 최적화합니다.
배치 크기 및 학습률	상세히 설명되지 않음	배치 크기 64, 학습률 2e-5	대규모 데이터셋으로 효율적인 훈련, 실제로 더 빠른 추론으로 이어집니다.
제어 조정	기본 강도 조정	조정 가능한 `control_context_scale` (0.65–0.90); 단계 권장	사용자 제어가 더 많아 과도하거나 부족한 입력 준수를 방지합니다.
문제 및 성능	재훈련 오류, 느린 로딩; 기술 필요	모든 문제 해결; 약간의 로딩 트레이드오프지만 더 나은 안정성	ComfyUI와 같은 워크플로우를 더 신뢰성 있게 만들고 커뮤니티가 빠르게 수정합니다.
하드웨어 주의사항	낮은 요구사항이지만 최적화 부족	8GB+ VRAM 혜택; 디스틸레이션 없음(더 많은 단계 필요)	중급 설정에 적합하지만 전문가는 추가 조정이 가능합니다.

요약

이번 업그레이드는 인페인팅 모드 지원과 더 긴 훈련 단계를 포함한 품질과 기능 향상을 가져왔습니다. 이는 점진적 업데이트로, 훈련 오류와 느린 로딩과 같은 이전 버전의 문제를 해결하여 모델을 창의적 작업에서 더 신뢰성 있게 만듭니다. 성능이 더 좋아졌지만, 복잡한 장면(예: 손 자세)에서는 여전히 수동 최적화가 필요할 수 있으며 하드웨어 요구사항이 높습니다.

V1.1 또는 V1.5라고 부르기보다는 V2.0이라는 이름이 더 적절해 보입니다. 제 주관적인 추측이지만, 현재의 적극적인 업데이트와 업그레이드는 z-image-omni-base를 더 빠르게 출시하기 위한 것일 수 있습니다. 모듈식 업그레이드 방법을 통해 분산 반복을 진행하고 전체 능력의 통합 향상을 추진하는 것입니다.

어쨌든, 알리바바가 z-image의 좋은 추세를 유지하고 AI의 진입 장벽을 무한히 낮춰 더 많은 사람들이 AI의 편리함을 누릴 수 있기를 기대합니다.