December 16, 2025(Updated 2/6/2026)

Nur 9 Tage nach der Veröffentlichung: ZIT Controlnet veröffentlicht Version 2.0!?

Author: z-image.me Team•5 min read

Nur 9 Tage nach der Veröffentlichung: ZIT Controlnet bringt Version 2.0 heraus!?

Einleitung

Kürzlich war Alibaba in der Bildgenerierungsmodell-Szene sehr aktiv. Sie haben gerade erst den Namen von z-image base geändert (nicht Z-Image-Base, sondern Z-Image-Omni-Base), und am 14. Dezember haben sie hastig Z-Image-Turbo-Fun-Controlnet-Union-2.0 veröffentlicht.
Zu wissen, dass dies nur 9 Tage nach der Veröffentlichung von Z-Image-Turbo ControlNet Union 1.0 der Fall ist, lässt einen zweifeln, ob es bei dieser eiligen Iteration irgendein Geheimnis gibt.
Als Außenstehende ist es für uns schwer, genaue Informationen zu erfahren, aber wir können aus den Update-Details einige Rückschlüsse ziehen. Genug geredet, schauen wir uns die Updates an:

Wichtige Update-Informationen und Funktionen

Die Version 2.0 betont Zuverlässigkeit und Kreativität. Hier sind die internen Inhalte:

Unterstützte Steuerungsmodi: Verarbeitet Standard-Eingaben wie Canny (Kantenerkennung für Konturen), HED (weiche Kanten für künstlerische Effekte), Depth (3D-Struktur aus Karten), Pose (Mensch- oder Objektpositionierung) und MLSD (Linien für Architektur). Diese ermöglichen es Ihnen, das KI-Modell zu "konditionieren" – zum Beispiel durch Bereitstellung einer groben Skizze, worauf das Modell eine passende, verfeinerte Bild generiert.
Inpainting-Modus: Wichtige Neuerung! Dies ermöglicht es Ihnen, bestimmte Bildbereiche zu maskieren und zu bearbeiten (z.B. Hintergrundwechsel ohne Veränderung des Vordergrunds). Allerdings haben Benutzer festgestellt, dass nicht maskierte Bereiche manchmal unscharf werden, daher helfen die Maskierungstools von ComfyUI bei der Verfeinerung der Ergebnisse.
Anpassbare Parameter: Passen Sie control_context_scale (empfohlen 0.65–0.90) an, um das Gleichgewicht zwischen der Strenge der KI-Befolgung der Steuerung zu balancieren. Höhere Werte erfordern mehr Inferenzschritte (z.B. 20–40) für klare Ausgaben und vermeiden Übersteuerung, die zu Detailverzerrungen führt.
Trainingsgrundlage: Vom Nullpunkt aus 70.000 Schritte trainiert, mit 1 Millionen hochwertigen Bildern (Mischung aus allgemeinen Szenen und menschenzentrierten). Verwendete Auflösung von 1328, BFloat16-Präzision, Batch-Größe 64 und Lernrate 2e-5. Der Name "Fun" deutet auf seinen spielerischen, kreativen Fokus hin, mit einer Text-Dropout-Rate von 0.10, um vielfältige Prompts zu fördern.

Vergleich mit der vorherigen Version (1.0)

Die vorherige Version Z-Image-Turbo-Fun-Controlnet-Union (häufig als 1.0 bezeichnet) legte den Grundstein, hatte aber Einschränkungen. Sie wurde auf einem ähnlichen Datensatz mit 1 Million Bildern nur für 10.000 Schritte trainiert, fügte nur 6 Blöcke hinzu, was zu gelegentlichen Fehlern beim Retraining und längeren Ladezeiten führte. Benutzer mussten oft Workarounds anwenden, um effektive Steuerung zu erreichen, und Inpainting war nicht verfügbar.

Im Vergleich dazu fühlt sich Version 2.0 an wie ein Upgrade vom einfachen Fahrrad zum Fahrrad mit Gangschaltung: Mehr Schichten (15 + 2 verfeinert) bedeuten feinere Steuerung, längeres Training verbessert die Qualität, und Inpainting eröffnet neue Bearbeitungsmöglichkeiten. Sie löst alle in Version 1.0 gemeldeten Probleme wie Stabilitätsprobleme, während sie die gleiche Kernsteuerung beibehält. Erweitertes Training und verfeinerte Blöcke verbessern die Detailtreue, insbesondere bei menschlichen Posen oder komplexen Szenen, obwohl benutzerdefiniertes Training möglicherweise 24GB+ VRAM erfordert.

Dimension	Version 1.0	Version 2.0	Warum ist das wichtig?
Trainingsschritte	10,000	70,000	Längeres Training führt zu verfeinerten, realistischeren Ausgaben und reduziert Artefakte.
Datensatz-Fokus	1 Million hochwertige Bilder (allgemein)	1 Million hochwertige Bilder (allgemein + menschenzentriert)	Bessere Verarbeitung von Figuren und Posen, Reduzierung häufiger KI-Probleme wie verzerrte Hände.
Steuerungsebenen	Zu 6 Blöcken hinzugefügt	Zu 15 Schichtblöcken + 2 verfeinerten Blöcken hinzugefügt	Tiefere Integration für glattere Steuerungsintegration, verbesserte Gesamtbildkohärenz.
Inpainting-Unterstützung	Nicht vorhanden	Volle Unterstützung mit Maskierung	Ermöglicht zielgerichtete Bearbeitung wie Hintergrundreparatur – revolutionär für iteratives Design.
Auflösung und Präzision	Basis (nicht spezifiziert)	1328 Auflösung, BFloat16-Präzision	Höhere Auflösung unterstützt Detailgenerierung; BFloat16 optimiert moderne GPU-Geschwindigkeit.
Batch-Größe und Lernrate	Nicht im Detail beschrieben	Batch-Größe 64, Lernrate 2e-5	Effizientes Training großer Datensätze, was in der Praxis zu schnellerer Inferenz führt.
Steuerungsanpassung	Einfache Stärkenanpassung	Anpassbarer `control_context_scale` (0.65–0.90); Schritte empfohlen	Mehr Benutzerkontrolle zur Balance, Über- oder Untersteuerung bei Eingabebeachtung vermeiden.
Probleme und Leistung	Retraining-Fehler, langsames Laden; erfordert Tricks	Alle Probleme gelöst; leichte Ladeabwägung, aber bessere Stabilität	Macht Workflows wie ComfyUI zuverlässiger, schnelle Community-Korrekturen.
Hardware-Hinweise	Geringere Anforderungen, aber unzureichend optimiert	Profitiert von 8GB+ VRAM; nicht destilliert (benötigt mehr Schritte)	Geeignet für mittlere Einrichtungen, aber Profis können weiter anpassen.

Zusammenfassung

Dieses Upgrade bringt Qualitäts- und Funktionsverbesserungen, einschließlich Unterstützung für den Inpainting-Modus und längere Trainingsschritte. Es ist ein schrittweiser Update, der einige Probleme der vorherigen Version wie Trainingsfehler und langsame Ladezeiten behebt und das Modell für kreative Aufgaben zuverlässiger macht. Obwohl die Leistung besser ist, können komplexe Szenarien (wie Handhaltungen) möglicherweise weiterhin manuelle Optimierung erfordern, und die Hardware-Anforderungen sind höher.

Es fühlt sich eher an wie eine V1.1 oder V1.5 als wie eine V2.0 – das ist meine rein subjektive Spekulation. Die derzeitigen aktiven Updates und Upgrades könnten darauf abzielen, z-image-omni-base schneller einzuführen, indem sie durch modulare Upgrades schrittweise迭代 (iterieren) und einheitliche Verbesserungen der Gesamtleistung fördern.

Jedenfalls hoffe ich, dass Alibaba den positiven Schwung von z-image aufrechterhält, die Hürden für KI unbegrenzt senkt und es mehr Menschen ermöglicht, die Vorteile der KI zu nutzen.