Zurück zur Liste

Distribution Matching Distillation trifft auf Reinforcement Learning

Zentrales technisches Paper zu Z-Image, stellt das DMDR-Framework vor: Integration von Reinforcement Learning in den Distribution Matching Distillation Prozess

Paper
Forschung
DMDR
Reinforcement Learning

Übersicht

Dieses Paper schlägt das DMDR-Framework vor, das Reinforcement-Learning-Techniken in den Prozess der Distribution Matching Distillation integriert. Die Forschung zeigt, dass für das bestärkende Lernen von Wenig-Schritt-Generatoren der DMD-Verlust selbst effektiver ist als traditionelle Regularisierungsmethoden.

Funktionen

  • DMDR: Fusions-Framework aus DMD und Reinforcement Learning
  • Dynamische Verteilungsleitstrategie
  • Dynamisches Renoise-Sampling-Training
  • Durchbruch in der Performance von Wenig-Schritt-Generatoren
  • Übertrifft die Leistung des Multi-Schritt-Lehrermodells

Bilder

Diagramm der Modellarchitektur aus dem Paper
Design der Modellarchitektur im DMDR-Framework

Nutzung

PDF-Download: https://arxiv.org/pdf/2511.13649.pdf

Weiterführende Links