返回列表

分佈匹配蒸餾遇上強化學習

Z-Image 核心技術論文,介紹了 DMDR 框架:將強化學習集成到分佈匹配蒸餾過程中

論文
研究
DMDR
強化學習

概述

該論文提出了 DMDR 框架,將強化學習技術集成到分佈匹配蒸餾過程中。研究表明,對於少步生成器的強化學習,DMD 損失本身比傳統的正則化方法更有效。

特性

  • DMDR:DMD 與強化學習融合框架
  • 動態分佈指導策略
  • 動態重噪採樣訓練
  • 少步生成器性能突破
  • 超越多步教師模型表現

图片展示

論文模型架構圖
DMDR 框架模型架構設計

使用方法

PDF 下載: https://arxiv.org/pdf/2511.13649.pdf

相关链接