返回列表

Distribution Matching Distillation Meets Reinforcement Learning

Z-Image 核心技术论文,介绍DMDR框架:将强化学习融入分布匹配蒸馏过程

论文
研究
DMDR
强化学习

概述

本文提出DMDR框架,将强化学习技术融入分布匹配蒸馏过程。研究发现对于少步生成器的强化学习,DMD损失本身比传统正则化方法更有效。

特性

  • DMDR: DMD与强化学习融合框架
  • 动态分布引导策略
  • 动态重噪声采样训练
  • 少步生成器性能突破
  • 超越多步教师模型性能

图片展示

DMDR框架的模型架构设计

使用方法

PDF下载: https://arxiv.org/pdf/2511.13649.pdf

相关链接