
¡ZIT Controlnet lanza la versión 2.0 en solo 9 días!?
¡ZIT Controlnet lanza la versión 2.0 en solo 9 días!?
Introducción
Recientemente, Alibaba ha estado muy activo en el campo de los modelos de generación de imágenes, acaba de cambiar el nombre de z-image base (No es Z-Image-Base, sino Z-Image-Omni-Base), y el 14 de diciembre apresuradamente lanzó Z-Image-Turbo-Fun-Controlnet-Union-2.0
Hay que tener en cuenta que desde el lanzamiento de Z-Image-Turbo ControlNet Union 1.0, solo han pasado 9 días, lo que不免让人怀疑 (no puede evitar hacer que la gente se pregunte), con una iteración tan apresurada, ¿hay algún secreto?
Como ajenos a la situación, es difícil para nosotros saber información precisa, pero podemos echar un vistazo a través del contenido de la actualización. Sin más preámbulos, veamos el contenido de la actualización:
Información y funciones clave de las actualizaciones
El lanzamiento de la versión 2.0 enfatiza la fiabilidad y la creatividad. Aquí está el contenido interno:
-
Modos de control compatibles: Procesa entradas estándar como Canny (detección de bordes para contornos), HED (bordes suaves para efectos artísticos), Depth (obtiene estructura 3D desde mapas), Pose (localización de humanos u objetos) y MLSD (líneas para arquitectura). Estos te permiten "condicionar" a la IA: por ejemplo, proporcionando un boceto aproximado, el modelo genera imágenes elaboradas que coinciden.
-
Modo de pintura interna: ¡Gran novedad! Esto te permite enmascarar y editar áreas específicas de la imagen (por ejemplo, cambiar el fondo sin alterar el primer plano). Sin embargo, los usuarios señalan que a veces las áreas no enmascaradas se vuelven borrosas, por lo que las herramientas de máscara de ComfyUI ayudan a refinar los resultados.
-
Parámetros ajustables: Ajusta
control_context_scale(recomendado 0.65–0.90) para equilibrar la estrictitud con la que la IA sigue los controles. Los valores más altos requieren más pasos de razonamiento (por ejemplo, 20–40) para obtener una salida clara, evitando que el control excesivo distorsione los detalles. -
Base de entrenamiento: Entrenado desde cero durante 70,000 pasos, usando 1 millón de imágenes de alta calidad (mezcla de escenas generales y centradas en humanos). Usando resolución 1328, precisión BFloat16, tamaño de lote 64 y tasa de aprendizaje 2e-5. El nombre "Fun" sugiere su enfoque lúdico y creativo, con una tasa de abandono de texto 0.10 para fomentar diversas indicaciones.
Comparación con la versión anterior (1.0)
La versión anterior Z-Image-Turbo-Fun-Controlnet-Union (a menudo llamada 1.0) sentó las bases, pero tenía limitaciones. Se entrenó solo durante 10,000 pasos en un conjunto de datos similar de 1 millón de imágenes, agregando solo 6 bloques, lo que provocaba errores ocasionales durante el reentrenamiento y tiempos de carga más lentos. Los usuarios a menudo necesitaban soluciones para lograr un control efectivo, y no había pintura interna disponible.
En comparación, la versión 2.0 se siente como una actualización de una bicicleta básica a una bicicleta de engranajes: más capas (15 + 2 refinadas) significan un control más fino, un entrenamiento más largo mejora la calidad, y la pintura interna abre nuevas posibilidades de edición. Resuelve todos los problemas reportados de la 1.0, como fallas de estabilidad, manteniendo el mismo control central. El entrenamiento extendido y los bloques refinados mejoran la retención de detalles, especialmente en poses humanas o escenas complejas, aunque el entrenamiento personalizado puede requerir 24GB+ de VRAM.
| Dimensión | Versión 1.0 | Versión 2.0 | ¿Por qué es importante |
|---|---|---|---|
| Pasos de entrenamiento | 10,000 | 70,000 | Un entrenamiento más largo produce salidas más refinadas y realistas, con menos artefactos. |
| Enfoque del conjunto de datos | 1 millón de imágenes de alta calidad (general) | 1 millón de imágenes de alta calidad (general + centradas en humanos) | Mejor manejo de personajes y poses, reduciendo defectos comunes de la IA como manos distorsionadas. |
| Capas de control | Agregadas en 6 bloques | Agregadas en 15 bloques de capa + 2 bloques refinados | Integración más profunda para una fusión de control más suave, mejorando la coherencia general de la imagen. |
| Soporte de Pintura interna | Sin | Soporte completo con máscara | Habilita la edición dirigida, como reparar fondos: revolucionario para el diseño iterativo. |
| Resolución y precisión | Básica (no especificada) | Resolución 1328, precisión BFloat16 | Mayor resolución soporta la generación de detalles; BFloat16 optimiza la velocidad en GPU modernas. |
| Tamaño de lote y tasa de aprendizaje | No detallado | Tamaño de lote 64, tasa de aprendizaje 2e-5 | Entrenamiento eficiente en grandes conjuntos de datos, se traduce en razonamiento más rápido en la práctica. |
| Ajuste de control | Ajuste básico de intensidad | control_context_scale ajustable (0.65–0.90); pasos recomendados |
Más control del usuario para equilibrar, evitando que la IA siga demasiado o poco las entradas. |
| Problemas y rendimiento | Errores de reentrenamiento, carga lenta; se necesitan trucos | Todos los problemas resueltos; ligera compensación de carga pero mejor estabilidad | Hace los flujos de trabajo como ComfyUI más confiables, con correcciones rápidas de la comunidad. |
| Consideraciones de hardware | Requisitos más bajos pero mal optimizados | Se beneficia de 8GB+ VRAM; sin destilación (requiere más pasos) | Adecuado para configuraciones de gama media, pero los profesionales pueden ajustar aún más. |
Conclusión
Esta actualización mejora en calidad y funcionalidad, incluyendo soporte para el modo de pintura interna y más pasos de entrenamiento. Es una actualización progresiva que resuelve algunos problemas de la versión anterior, como errores de entrenamiento y carga lenta, haciendo que el modelo sea más confiable para tareas creativas. Aunque el rendimiento es mejor, escenas complejas (como poses de manos) pueden aún requerir optimización manual, y los requisitos de hardware son más altos.
Siento que debería llamarse V1.1 o V1.5 en lugar de V2.0, mi especulación subjetiva sin responsabilidad. Actualmente, las actualizaciones y mejoras positivas podrían ser para lanzar más rápidamente z-image-omni-base, mediante un método de actualización modular, iteración distribuida, impulsando la mejora unificada de las capacidades generales.
De cualquier manera, espero que Alibaba pueda mantener el buen impulso de z-image, reduciendo infinitamente los barreras de la IA, permitiendo que más personas puedan disfrutar de las comodidades de la IA.