Al na 9 dagen lanceert ZIT Controlnet versie 2.0!?
(Updated 2/6/2026)

Al na 9 dagen lanceert ZIT Controlnet versie 2.0!?

Author: z-image.me Team5 min read

ZIT Controlnet brengt versie 2.0 uit na slechts 9 dagen!?

Inleiding

Recentelijk is Alibaba zeer actief in het domein van beeldgeneratiemodellen. Ze hebben net de naam van z-image base gewijzigd (niet Z-Image-Base, maar Z-Image-Omni-Base), en op 14 december haastten ze zich om Z-Image-Turbo-Fun-Controlnet-Union-2.0 uit te brengen.

We moeten bedenken dat dit maar 9 dagen na de release van Z-Image-Turbo ControlNet Union 1.0 is. Het is begrijpelijk dat men zich afvraagt of er een reden is voor zo'n snelle iteraties. Als buitenstaanders is het moeilijk om precieze informatie te verkrijgen, maar we kunnen wat inzichten opdoen uit de update-inhoud. Laten we direct naar de updates kijken:

Belangrijke update-informatie en functies

De release van 2.0 legt de nadruk op betrouwbaarheid en creativiteit. Hier is de interne inhoud:

  • Ondersteunde controlemodi: Verwerken van standaardinvoer zoals Canny (randdetectie voor contouren), HED (zachte randen voor artistieke effecten), Depth (3D-structuur uit kaarten), Pose (positie van mensen of objecten) en MLSD (lijnen voor architectuur). Dit stelt u in staat om de AI "voorwaardelijk" te maken - bijvoorbeeld door een ruwe schets te geven, genereert het model een verfijnde afbeelding die hierbij past.

  • Inpaint-modus: Een belangrijke toevoeging! Dit stelt u in staat om specifieke gebieden van een afbeelding te maskeren en te bewerken (bijvoorbeeld de achtergrond veranderen zonder de voorgrond aan te passen). Gebruikers hebben echter aangegeven dat niet-gemaskeerde gebieden soms onscherp worden, dus de maskerhulpmiddelen van ComfyUI helpen bij het verfijnen van het resultaat.

  • Instelbare parameters: Pas control_context_scale (aanbevolen 0.65–0.90) aan om het evenwicht te vinden tussen de mate waarin de AI de controles volgt. Hogere waarden vereisen meer redactiestappen (bijv. 20–40) voor een scherpe output, overmatige controle kan leiden tot vervorming van details.

  • Trainingsbasis: Vanaf nul getraind in 70.000 stappen, met 1 miljoen hoogwaardige afbeeldingen (een mix van algemene场景 en mens-gecentreerde场景). Gebruikt 1328 resolutie, BFloat16 precisie, batchgrootte 64 en leersnelheid 2e-5. De naam "Fun" suggereert de focus op plezier en creativiteit, met een tekst dropout ratio van 0.10 om diverse prompts aan te moedigen.

Vergelijking met de vorige versie (1.0)

De vorige versie Z-Image-Turbo-Fun-Controlnet Union (vaak 1.0 genoemd) legde de basis, maar had beperkingen. Het werd getraind op een vergelijkbare dataset van 1 miljoen afbeeldingen voor slechts 10.000 stappen, met slechts 6 blokken toegevoegd, wat leidde tot occasionele fouten bij hertrainen en langzamere laadtijden. Gebruikers moesten vaak creatieve oplossingen bedenken om effectieve controle te bereiken, en er was geen ondersteuning voor inpainting.

In vergelijking daarmee voelt 2.0 als een upgrade van een basisfiets naar een fiets met versnellingen: meer lagen (15 + 2 verfijnde) betekent fijnere controle, langere training verbetert de kwaliteit, en inpainting opent nieuwe bewerkingsmogelijkheden. Het lost alle gerapporteerde problemen van 1.0 op, zoals stabiliteitsproblemen, terwijl dezelfde kerncontrole behouden blijft. Uitgebreide training en verfijningsblokken verbeteren de detailbehoud, vooral bij menselijke poses of complexe场景, hoewel aangepaste training mogelijk 24GB+ VRAM vereist.

Dimensie Versie 1.0 Versie 2.0 Waarom belangrijk
Trainingsstappen 10.000 70.000 Langere training leidt tot verfijndere, realistischere output met minder artefacten.
Datasetfocus 1 miljoen hoogwaardige afbeeldingen (algemeen) 1 miljoen hoogwaardige afbeeldingen (algemeen + mens-gecentreerd) Betere verwerking van mensen en poses, vermindert veelvoorkomende AI-tekortkomingen zoals vervormde handen.
Controlelagen Toegevoegd op 6 blokken Toegevoegd op 15 laagblokken + 2 verfijningsblokken Diepere integratie voor soepelere controlefusie, verbetert algehele afbeeldingssamenhang.
Inpainting-ondersteuning Geen Volledige ondersteuning met maskering Maakt gerichte bewerking mogelijk, zoals achtergrondcorrectie - een revolutie voor iteratief ontwerp.
Resolutie en precisie Basis (niet gespecificeerd) 1328 resolutie, BFloat16 precisie Hogere resolutie ondersteunt detailgeneratie; BFloat16 optimaliseert snelheid op moderne GPU's.
Batchgrootte en leersnelheid Niet gedetailleerd Batchgrootte 64, leersnelheid 2e-5 Efficiënte training op grote datasets, vertaalt zich in snellere redactie in de praktijk.
Controleaanpassing Basisintensiteitsaanpassing Instelbare control_context_scale (0.65–0.90); stap aanbevelingen Meer gebruikerscontrole voor balans, voorkomt overmatig of onvoldoende naleving van input.
Problemen en prestaties Hertrainingsfouten, langzame laadtijd; vereist technieken Alle problemen opgelost; lichte laadtijdafweging maar betere stabiliteit Maakt workflows zoals ComfyUI betrouwbaarder, community lost snel problemen op.
Hardware-opmerkingen Lagere eisen maar slecht geoptimaliseerd Profiteert van 8GB+ VRAM; niet gedistilleerd (vereist meer stappen) Geschikt voor middenklasse instellingen, maar professionals kunnen verder aanpassen.

Conclusie

Deze upgrade brengt kwaliteits- en functionaliteitsverbeteringen, waaronder ondersteuning voor Inpainting-modus en langere trainingsstappen. Het is een incrementele update die problemen van de vorige versie oplost, zoals trainingsfouten en langzame laadtijden, waardoor het model betrouwbaarder is voor creatieve taken. Hoewel de prestaties beter zijn, kunnen complexe场景 (zoals handposities) nog steeds handmatige optimalisatie vereisen, en de hardware-eisen zijn hoger.

Ik zou het eerder V1.1 of V1.5 noemen in plaats van V2.0 - mijn subjectieve speculatie. De huidige positieve updates en upgrades zijn mogelijk bedoeld om sneller z-image-omni-base uit te brengen, door een modulaire upgrade-aanpak met gedistribueerde iteraties, wat de algemene capaciteitsverhoging stimuleert.

Hoe dan ook, ik hoop dat Alibaba de goede momentum van z-image kan behouden, de drempel voor AI verlaagt, en meer mensen kan laten genieten van het gemak van AI.

Referentie-informatie