January 9, 2026(Updated 2/5/2026)

Z-Image Omni Base está finalmente a chegar! O modelo de IA versátil que unifica geração e edição de imagens está prestes a ser lançado

Author: z-image.me Team•5 min read

Z-Image Omni Base está finalmente a chegar! O modelo de IA omnipotente para geração e edição unificada está prestes a ser lançado

As últimas novidades do Z-Image estão a agitar a comunidade

Recentemente, as discussões na comunidade da geração de imagens de IA têm sido constantemente inflamadas por um nome - Z-Image Omni Base. Dos tópicos populares no Reddit como "O modelo Z-Image Base está prestes a cumprir a sua promessa", "O ZImage Omni está a chegar", "O Omni Base parece que vai ser lançado", à divulgação gradual de informações oficiais, este altamente esperado modelo omnipotente base finalmente chegou a um sinal claro de lançamento, e a sua chegada trará uma transformação significativa no campo da geração e edição de imagens de IA.

Visão geral do Z-Image Omni Base

O Z-Image Omni Base é uma evolução da série Z-Image da equipa Tongyi-MAI da Alibaba, passando do Z-Image-Base original para enfatizar o pré-treinamento "omni". Este método permite processar de forma integrada a geração de texto para imagem (T2I) e a edição de imagem para imagem (I2I), sem perda de desempenho devido à mudança de tarefas. Baseado num Transformer de difusão de fluxo único escalável (S3-DiT) com 6B de parâmetros, processa texto, tokens semânticos visuais e tokens de imagem VAE num fluxo unificado, suportando capacidades bilíngues em chinês e inglês.

A estratégia por trás do nome: a transição essencial de "Base" para "Omni Base"

O lançamento deste modelo não é simplesmente uma iteração de versão, mas sim uma atualização estratégica fundamental. Como analisei anteriormente (link do artigo original: https://z-image.me/en/blog/Not_Z-Image-Base_but_Z-Image-Omni-Base), o Z-Image-Base originalmente planeado foi oficialmente renomeado para Z-Image-Omni-Base. Esta mudança de nome não é meramente um ajuste de rótulo, mas sim um símbolo da transição estratégica da arquitetura do modelo para o pré-treinamento "omnipotente" - quebra as barreiras tradicionais que separam as tarefas de geração e edição, unificando as duas funções centrais através de um pipeline de pré-treinamento de cenário completo que integra dados de geração e edição.

Esta unificação traz vantagens cruciais: evita a complexidade e a perda de desempenho dos modelos tradicionais ao alternar entre tarefas de geração e edição, ao mesmo tempo que permite o uso transversal de ferramentas como adaptadores LoRA, fornecendo aos desenvolvedores ferramentas de código aberto mais flexíveis e reduzindo a dependência de múltiplos modelos variantes especializados. Os utilizadores da comunidade já captaram esta mudança com perspicácia, referindo-se frequentemente a ela como "Omni Base" nas discussões, destacando a sua natureza "omnipotente" em vez de ser simplesmente um modelo base de geração.

Atualizações da série Z-Image

Além do Omni Base mais proeminente, a série Z-Image também adicionou um novo ramo variante - Z-Image:

Atualmente, a série inclui quatro variantes principais:

Esta tabela destaca as características equilibradas do Omni Base, tornando-o adequado para desenvolvedores que procuram uma base de modelo personalizada. A integração comunitária, como stable-diffusion.cpp, aumenta ainda mais a acessibilidade, permitindo a execução de versões quantizadas em hardware como o RTX 3090.

Os benchmarks de desempenho no relatório arXiv mostram que o Z-Image se equipara a sistemas comerciais em termos de realismo fotográfico e renderização de texto. Por exemplo, a classificação no ranking do Turbo destaca a competitividade da série, e o Omni Base espera construir sobre esta base através do seu paradigma omni, podendo habilitar extensões como geração de vídeo (ainda não confirmada).

Evidências apontando para o lançamento iminente

As discussões na comunidade intensificaram-se nas últimas semanas, particularmente nos subreddits r/StableDiffusion e r/LocalLLaMA. A partir de 8 de janeiro de 2026, os utilizadores destacaram os preparativos para o Z-Image-Omni-Base. Por exemplo, o thread intitulado "Z-Image OmniBase looking like it's gonna release soon" faz referência a submissões-chave no repositório ModelScope DiffSynth-Studio, por volta da mesma época. Esta submissão adicionou suporte completo para o Omni Base, incluindo:

Novas configurações de modelo para Z-Image-Omni-Base, Siglip2ImageEncoder428M (modelo visual com 428M de parâmetros), ZImageControlNet e ZImageImage2LoRAModel.
Atualizações de gestão de VRAM para empacotamento de camadas eficiente, permitindo inferência de baixo VRAM.
Modificações ao pipeline base para processar LoRA apenas para frente e funções de modelo de guia.
Scripts de inferência e treinamento dedicados, como Z-Image-Omni-Base.py e arquivos .sh, para validação de modelo e condicionamento ControlNet.

Estas mudanças indicam que o framework está a ser alinhado para uso imediato após o lançamento dos pesos. Outro post no Reddit, "Z-image Omni 👀", discute o impacto das submissões, notando o suporte nativo Image-to-LoRA e a compatibilidade de dia zero com ControlNet. Os utilizadores especulam que o Omni Base servirá como base para o treinamento LoRA, podendo superar o Turbo em versatilidade, enquanto complementa o fluxo de trabalho orientado para velocidade.

O repositório oficial Tongyi-MAI/Z-Image no GitHub aumenta ainda mais o otimismo. Atualizado recentemente em 7 de janeiro de 2026, lista explicitamente o Z-Image-Omni-Base como "a ser lançado" no Hugging Face e ModelScope. As submissões recentes incluem melhorias no download automático de checkpoints e backend de atenção configurável, construídas sobre a submissão inicial de 26 de novembro de 2025. A integração com Hugging Face Diffusers (através dos PRs #12703 e #12715) garante uma adoção sem esforços.