Volver a la lista

La destilación por coincidencia de distribución se encuentra con el aprendizaje por refuerzo

Documento técnico principal de Z-Image, que presenta el marco DMDR: integración del aprendizaje por refuerzo en el proceso de destilación por coincidencia de distribución

Documento
Investigación
DMDR
Aprendizaje por refuerzo

Resumen

Este documento propone el marco DMDR, que integra técnicas de aprendizaje por refuerzo en el proceso de destilación por coincidencia de distribución. La investigación muestra que para el aprendizaje por refuerzo de generadores de pocos pasos, la pérdida de DMD en sí misma es más efectiva que los métodos de regularización tradicionales.

Características

  • DMDR: Marco de fusión de DMD y aprendizaje por refuerzo
  • Estrategia de guía de distribución dinámica
  • Entrenamiento de muestreo dinámico renoise
  • Avance de rendimiento del generador de pocos pasos
  • Excede el rendimiento del modelo maestro de pasos múltiples

Imágenes

Diagrama de arquitectura del modelo del documento
Diseño de arquitectura del modelo del marco DMDR

Uso

Descarga de PDF: https://arxiv.org/pdf/2511.13649.pdf

Enlaces relacionados