العودة للقائمة

Distribution Matching Distillation Meets Reinforcement Learning

الورقة التقنية الأساسية لـ Z-Image، التي تقدم إطار عمل DMDR: دمج التعلم التعزيزي في عملية تقطير مطابقة التوزيع

ورقة بحثية
بحث
DMDR
تعلم تعزيزي

نظرة عامة

تقترح هذه الورقة إطار عمل DMDR، الذي يدمج تقنيات التعلم التعزيزي في عملية تقطير مطابقة التوزيع. يظهر البحث أنه بالنسبة للتعلم التعزيزي للمولدات ذات الخطوات القليلة، فإن خسارة DMD نفسها أكثر فعالية من طرق التنظيم التقليدية.

الميزات

  • DMDR: إطار دمج DMD والتعلم التعزيزي
  • إستراتيجية توجيه التوزيع الديناميكية
  • تدريب عينات إعادة الضوضاء الديناميكية
  • طفرة في أداء المولدات ذات الخطوات القليلة
  • يتجاوز أداء نموذج المعلم متعدد الخطوات

الصور

رسم تخطيطي لبنية نموذج الورقة
تصميم بنية نموذج إطار عمل DMDR

الاستخدام

تنزيل PDF: https://arxiv.org/pdf/2511.13649.pdf

روابط ذات صلة

الأدوات الشائعة

اكتشف أدواتنا الإبداعية الأكثر شهرة