
Nur 9 Tage nach der Veröffentlichung: ZIT Controlnet veröffentlicht Version 2.0!?
Nur 9 Tage nach der Veröffentlichung: ZIT Controlnet bringt Version 2.0 heraus!?
Einleitung
Kürzlich war Alibaba in der Bildgenerierungsmodell-Szene sehr aktiv. Sie haben gerade erst den Namen von z-image base geändert (nicht Z-Image-Base, sondern Z-Image-Omni-Base), und am 14. Dezember haben sie hastig Z-Image-Turbo-Fun-Controlnet-Union-2.0 veröffentlicht.
Zu wissen, dass dies nur 9 Tage nach der Veröffentlichung von Z-Image-Turbo ControlNet Union 1.0 der Fall ist, lässt einen zweifeln, ob es bei dieser eiligen Iteration irgendein Geheimnis gibt.
Als Außenstehende ist es für uns schwer, genaue Informationen zu erfahren, aber wir können aus den Update-Details einige Rückschlüsse ziehen. Genug geredet, schauen wir uns die Updates an:
Wichtige Update-Informationen und Funktionen
Die Version 2.0 betont Zuverlässigkeit und Kreativität. Hier sind die internen Inhalte:
-
Unterstützte Steuerungsmodi: Verarbeitet Standard-Eingaben wie Canny (Kantenerkennung für Konturen), HED (weiche Kanten für künstlerische Effekte), Depth (3D-Struktur aus Karten), Pose (Mensch- oder Objektpositionierung) und MLSD (Linien für Architektur). Diese ermöglichen es Ihnen, das KI-Modell zu "konditionieren" – zum Beispiel durch Bereitstellung einer groben Skizze, worauf das Modell eine passende, verfeinerte Bild generiert.
-
Inpainting-Modus: Wichtige Neuerung! Dies ermöglicht es Ihnen, bestimmte Bildbereiche zu maskieren und zu bearbeiten (z.B. Hintergrundwechsel ohne Veränderung des Vordergrunds). Allerdings haben Benutzer festgestellt, dass nicht maskierte Bereiche manchmal unscharf werden, daher helfen die Maskierungstools von ComfyUI bei der Verfeinerung der Ergebnisse.
-
Anpassbare Parameter: Passen Sie
control_context_scale(empfohlen 0.65–0.90) an, um das Gleichgewicht zwischen der Strenge der KI-Befolgung der Steuerung zu balancieren. Höhere Werte erfordern mehr Inferenzschritte (z.B. 20–40) für klare Ausgaben und vermeiden Übersteuerung, die zu Detailverzerrungen führt. -
Trainingsgrundlage: Vom Nullpunkt aus 70.000 Schritte trainiert, mit 1 Millionen hochwertigen Bildern (Mischung aus allgemeinen Szenen und menschenzentrierten). Verwendete Auflösung von 1328, BFloat16-Präzision, Batch-Größe 64 und Lernrate 2e-5. Der Name "Fun" deutet auf seinen spielerischen, kreativen Fokus hin, mit einer Text-Dropout-Rate von 0.10, um vielfältige Prompts zu fördern.
Vergleich mit der vorherigen Version (1.0)
Die vorherige Version Z-Image-Turbo-Fun-Controlnet-Union (häufig als 1.0 bezeichnet) legte den Grundstein, hatte aber Einschränkungen. Sie wurde auf einem ähnlichen Datensatz mit 1 Million Bildern nur für 10.000 Schritte trainiert, fügte nur 6 Blöcke hinzu, was zu gelegentlichen Fehlern beim Retraining und längeren Ladezeiten führte. Benutzer mussten oft Workarounds anwenden, um effektive Steuerung zu erreichen, und Inpainting war nicht verfügbar.
Im Vergleich dazu fühlt sich Version 2.0 an wie ein Upgrade vom einfachen Fahrrad zum Fahrrad mit Gangschaltung: Mehr Schichten (15 + 2 verfeinert) bedeuten feinere Steuerung, längeres Training verbessert die Qualität, und Inpainting eröffnet neue Bearbeitungsmöglichkeiten. Sie löst alle in Version 1.0 gemeldeten Probleme wie Stabilitätsprobleme, während sie die gleiche Kernsteuerung beibehält. Erweitertes Training und verfeinerte Blöcke verbessern die Detailtreue, insbesondere bei menschlichen Posen oder komplexen Szenen, obwohl benutzerdefiniertes Training möglicherweise 24GB+ VRAM erfordert.
| Dimension | Version 1.0 | Version 2.0 | Warum ist das wichtig? |
|---|---|---|---|
| Trainingsschritte | 10,000 | 70,000 | Längeres Training führt zu verfeinerten, realistischeren Ausgaben und reduziert Artefakte. |
| Datensatz-Fokus | 1 Million hochwertige Bilder (allgemein) | 1 Million hochwertige Bilder (allgemein + menschenzentriert) | Bessere Verarbeitung von Figuren und Posen, Reduzierung häufiger KI-Probleme wie verzerrte Hände. |
| Steuerungsebenen | Zu 6 Blöcken hinzugefügt | Zu 15 Schichtblöcken + 2 verfeinerten Blöcken hinzugefügt | Tiefere Integration für glattere Steuerungsintegration, verbesserte Gesamtbildkohärenz. |
| Inpainting-Unterstützung | Nicht vorhanden | Volle Unterstützung mit Maskierung | Ermöglicht zielgerichtete Bearbeitung wie Hintergrundreparatur – revolutionär für iteratives Design. |
| Auflösung und Präzision | Basis (nicht spezifiziert) | 1328 Auflösung, BFloat16-Präzision | Höhere Auflösung unterstützt Detailgenerierung; BFloat16 optimiert moderne GPU-Geschwindigkeit. |
| Batch-Größe und Lernrate | Nicht im Detail beschrieben | Batch-Größe 64, Lernrate 2e-5 | Effizientes Training großer Datensätze, was in der Praxis zu schnellerer Inferenz führt. |
| Steuerungsanpassung | Einfache Stärkenanpassung | Anpassbarer control_context_scale (0.65–0.90); Schritte empfohlen |
Mehr Benutzerkontrolle zur Balance, Über- oder Untersteuerung bei Eingabebeachtung vermeiden. |
| Probleme und Leistung | Retraining-Fehler, langsames Laden; erfordert Tricks | Alle Probleme gelöst; leichte Ladeabwägung, aber bessere Stabilität | Macht Workflows wie ComfyUI zuverlässiger, schnelle Community-Korrekturen. |
| Hardware-Hinweise | Geringere Anforderungen, aber unzureichend optimiert | Profitiert von 8GB+ VRAM; nicht destilliert (benötigt mehr Schritte) | Geeignet für mittlere Einrichtungen, aber Profis können weiter anpassen. |
Zusammenfassung
Dieses Upgrade bringt Qualitäts- und Funktionsverbesserungen, einschließlich Unterstützung für den Inpainting-Modus und längere Trainingsschritte. Es ist ein schrittweiser Update, der einige Probleme der vorherigen Version wie Trainingsfehler und langsame Ladezeiten behebt und das Modell für kreative Aufgaben zuverlässiger macht. Obwohl die Leistung besser ist, können komplexe Szenarien (wie Handhaltungen) möglicherweise weiterhin manuelle Optimierung erfordern, und die Hardware-Anforderungen sind höher.
Es fühlt sich eher an wie eine V1.1 oder V1.5 als wie eine V2.0 – das ist meine rein subjektive Spekulation. Die derzeitigen aktiven Updates und Upgrades könnten darauf abzielen, z-image-omni-base schneller einzuführen, indem sie durch modulare Upgrades schrittweise迭代 (iterieren) und einheitliche Verbesserungen der Gesamtleistung fördern.
Jedenfalls hoffe ich, dass Alibaba den positiven Schwung von z-image aufrechterhält, die Hürden für KI unbegrenzt senkt und es mehr Menschen ermöglicht, die Vorteile der KI zu nutzen.