Reinforcement Learning für Diffusionsmodelle: Datenreguliertes Verfahren verbessert Ergebnisse
In der Welt der generativen Diffusionsmodelle ist die Abstimmung auf menschliche Präferenzen ein zentrales Ziel. Dabei stoßen herkömmliche Reinforcement‑Learning‑Ansätze häufig an Grenzen: Sie neigen zu sogenannten Reward‑Hacking‑Phänomenen, bei denen die Qualität der generierten Inhalte leidet, übermäßig gestylt wird oder die Vielfalt stark eingeschränkt ist.