January 27, 2026(Updated 2/4/2026)

أحدث نموذج رسوم مفتوح المصدر رقميًا في العالم! Z-Image: Z-Image مقابل Z-Image-Turbo

Author: z-image.me Team•5 min read

تحديث لأول نموذج رسومي مفتوح المصدر في العالم! إصدار Z-Image: Z-Image مقابل Z-Image-Turbo

توليد صورة عالية الجودة في أقل من ثانية واحدة، وتشغيل بسلاسة على بطاقات رسومات للمستهلكين، وتصيير نصوص ثنائية اللغة (الصينية والإنجليزية) بدقة — نموذج توليد الصور المفتوح المصدر الجديد من علي تونغي (Tongyi) Z-Image ي redefine حدود الرسم بالذكاء الاصطناعي.

في ليلة 27 يناير 2026، أعلن مختبر علي تونغي رسميًا عن نموذج توليد الصور الأساسي الجديد Z-Image. مقارنةً بـ Z-Image-Turbo، حقق النموذج القياسي Z-Image ترقيات في العديد من الجوانب، مع جودة وحرية أعلى، لكن متطلبات ذاكرة الفيديو البالغة 24 جيجابايت قد تثبط عزيمة بعض المستخدمين المتحمسين. لنرى ما الذي سيقدمه Z-Image بدون Turbo!

أولاً: z-image مقابل z-image-turbo

الجانب	Z-Image	Z-Image-Turbo
CFG	✅	❌
الخطوات	28~50	8
القابلية للتدريب الدقيق	✅	❌
المطالبات السلبية	✅	❌
التنوع	عالي	منخفض
الجودة البصرية	عالي	عالي جدًا
التعلم المعزز (RL)	❌	✅
الت定位 الأساسي	إصدار الأداء العالي، ي追求 جودة صورة قصوى	إصدار الاستدلال السريع، يركز على التوليد الفوري
حجم المعلمات	6B (6 مليار)	مُحسَّن من خلال التقطير من 6B، حجم أصغر
بيانات التدريب	بيانات عالمية حقيقية فقط، لا يعتمد على التقطير	يرث نظام البيانات الأساسي، مُحسَّن بالتقطير
البنية الأساسية	بنية S3-DiT أحادية التدفق عبر الأنماط	إصدار مبسط من نفس البنية، مُصمَّم للاستدلال السريع
تكلفة التدريب	حوالي 628,000 دولار (314K ساعة GPU H800)	مُحسَّن من النموذج الأساسي، تكلفة أقل

ثانياً: مقارنة العينات

ثالثاً: مقارنة مفصلة للأداء ومتطلبات الأجهزة

1. مؤشرات الأداء الأساسية للتوليد

مؤشر الأداء	Z-Image (الإصدار الأحدث)	Z-Image-Turbo
عدد خطوط العينة	موصى به 20-25 خط (يصل إلى 50 خط كحد أقصى)	يحتاج فقط 8 خطوط لتوليد صورة عالية الجودة
سرعة التوليد (1024×1024)	3-5 ثانية/صورة (ذاكرة فيديو 24 جيجابايت)	3.4 ثانية/صورة (8 خطوات، ذاكرة فيديو 24 جيجابايت)
دقة الصورة	يدعم إخراج عالي الدقة، تفاصيل أكثر ثراءً	الافتراضي 1024×1024، يوازن بين السرعة والجودة
تصيير النص	تصيير دقيق للنصوص المختلطة الصينية والإنجليزية، يدعم التخطيط المعقد	توليد نصوص ثنائية اللغة (الصينية والإنجليزية)، بدون أخطاء أو تعديل
الأضواء والظلال	انتقال طبيعي للأضواء والظلال، جودة قريبة من التصوير الاحترافي	تأثيرات بصرية ممتازة، تلبي احتياجات المشاهدات اليومية
فهم التعليمات	آلية تعزيز مدمجة للإرشادات، تدعم التعليمات المعقدة	فهم أساسي للتعليمات، مُصمَّم لسيناريوهات الاستجابة السريعة

2. متطلبات تكوين الأجهزة

مواصفات الأجهزة	Z-Image (الإصدار الأحدث)	Z-Image-Turbo
الحد الأدنى لذاكرة الفيديو	12 جيجابايت (لتوليد الدقة الأساسية)	8 جيجابايت (لدقة 512-768)
ذاكرة الفيديو الموصى بها	24 جيجابايت (توليد عالي الدقة + خطوات متعددة)	12 جيجابايت (دقة 768×768، 24 خطوة)
بطاقات الرسومات المتوافقة	بطاقات رسومات للمستهلكين (مثل RTX 3090/4090)	بطاقات رسومات للمستهلكين (مثل RTX 3060/4060 فما فوق)
متطلبات الذاكرة	16 جيجابايت فما فوق	16 جيجابايت فما فوق
إطار النشر	PyTorch 2.5.0 + CUDA 12.4	نفس الإطار، مُصمَّم لنشر أخف
تحسين ذاكرة الفيديو	يدعم النشر بمعيار FP16، يمكن تحسينه إلى FP8	الافتراضي مُحسَّن لـ FP8، استهلاك ذاكرة فيديو أقل

بيانات الاختبار الفعلية المرجعية: في بيئة RTX 4090 (24 جيجابايت)، يستغرق Z-Image حوالي 4.2 ثانية لتوليد صورة بدقة 1024×1024 (20 خطوة)، بينما يستغرق Z-Image-Turbo نفس الدقة (8 خطوات) 3.4 ثانية، والفرق في السرعة يأتي أساسًا من تحسين عدد خطوات العينة.

رابعاً: تقييم النموذج وتحليل السيناريوهات المناسبة

1. المزايا الأساسية لـ Z-Image (الإصدار الأحدث)

سقف الجودة: كإصدار راقٍ في السلسلة، تصل صوره التي تم إنشاؤها إلى مستوى جديد في التفاصيل الغنية، جودة البشرة، وتدرجات الأضواء والظلال، حيث يمكن لمحاكاة الواقعية في البورتريه أن تضاهي النماذج التجارية، مناسبة للمصممين المحترفين والإعلانات وغيرها من السيناريوهات التي تتطلب أعلى مستويات الجودة.
موثوقية البيانات عالية: التدريب على بيانات عالمية حقيقية فقط ي带来 أفضل معقولية للمشاهدات، ويجنب الأخطاء المنطقية الشائعة في النماذج المقطرة، ويبرز في سيناريوهات مثل المفاهيم الإبداعية والرسوم البيانية لتصميم المنتجات التي تتطلب اتساقًا منطقيًا.
ودي للتجارة: مفتوح المصدر وترخيصه التجاري واضح، يحل مشاكل النماذج التقليدية حول حقوق النشر، يمكن للمستخدمين المؤسسيين دمجه بثقة.

2. تقسيم السيناريوهات المناسبة للنموذجين

السيناريوهات التي يُفضل فيها Z-Image (الإصدار الأحدث):
- السيناريوهات التجارية مثل التصميم الاحترافي للبوسترات، والإعلانات، ورسوم الدعاية للمنتجات.
- توليد الصور عالية الدقة، التصميم الإبداعي للمشاهدات المعقدة، الحاجة إلى تخطيط نصي دقيق.
- التجارب البحثية، التطوير الثانوي للنماذج، السيناريوهات التي تتطلب أداءً قصوى.
السيناريوهات التي يُفضل فيها Z-Image-Turbo:
- متطلبات التوليد الفوري (مثل صور البث المباشر، إنشاء مقاطع الفيديو القصيرة، أدوات التصميم عبر الإنترنت).
- المستخدمون الأفراد أو الفرق الصغيرة بموارد أجهزة محدودة (فقط ذاكرة فيديو 8 جيجابايت).
- التوليد الدفعي، التوضيح التلقائي، تكوين API وغيرها من السيناريوهات التي تتطلب سرعة عالية.

3. التأثير الصناعي والقيود

الأهمية التاريخية: تحقيق أداء نماذج 30B+ بمعلمات 6B، يثبت فكرة "التصميم أفضل من التكدس" في البحث والتطوير، ويوفر للصناعة نموذجًا لإنشاء نماذج SOTA بتكلفة منخفضة.
قيمة شاملة: يمكن نشره على بطاقات رسومات للمستهلكين، مما يخفض من عتبة تقنية الرسم بالذكاء الاصطناعي، ويسمح بالمبدعين الأفراد والشركات الصغيرة والصغيرة أيضًا بالاستمتاع بأفضل قدرات التوليد.
العيوب الحالية: يتطلب Z-Image ذاكرة فيديو أعلى عند توليد أعلى الدقة، وهناك مجال لتحسين القدرة الإبداعية في بعض المشاهدات المعقدة؛ الإصدار Turbo متفوق قليلاً على الإصدار الرائد في تخطيط النصوص المعقد للغاية.

عناوين التجربة عبر الإنترنت

خامساً: ملخصي

لا أعرف ما إذا كان الناس راضين عن إطلاق z-image هذا. بالنسبة لي شخصياً، أشعر أنه كان متوقعاً لكنه لم يكن بالقدر الذي كان متوقعاً،
كان متوقعاً لأنه كان تحديثاً منتجاً مستقراً، وحل مشكلة "المرح" لكنه "غير قابل للاستخدام"، مما جعله منتجاً أكثر نضجاً واكتمالاً. لكن السبب في أنه لم يكن بالقدر المتوقع بسيط جداً - التوقعات كانت مرتفعة جداً، لقد حققت ZIT نجاحاً فورياً عند ظهورها، والنجاح الفوري يعني الذروة. السرعة القصوى والجودة القصوى أنتجت توقعات قصوى من المستخدمين، أعتقد أن هذا الإطلاق أشبه بمرحلة انتقالية وسيطة، حولت "اللعبة" القوية إلى "أداة"، لكنني آمل أن أرى قريباً النموذجين الآخرين القابلين للعب أكثر: Z-Image-Omni-Base و Z-Image-Edit.

يمكنكم التخمين كم من الوقت سيستغرق حتى الإطلاق التالي؟ وما النموذج الذي سيتم إطلاقه في المرة القادمة؟