Forschung
Reinforcement Learning für Diffusionsmodelle: Datenreguliertes Verfahren verbessert Ergebnisse
In der Welt der generativen Diffusionsmodelle ist die Abstimmung auf menschliche Präferenzen ein zentrales Ziel. Dabei stoßen herkömmliche…
arXiv – cs.LG