DeRaDiff: Echtzeit-Anpassung von Diffusionsmodellen für bessere Bildqualität
In der Welt der Diffusionsmodelle ist die Abstimmung auf menschliche Vorlieben ein zentrales Ziel, um die Ästhetik zu steigern und unerwünschte Artefakte zu reduzieren. Dabei wird häufig die Kullback‑Leibler‑Regulierung eingesetzt, doch die Wahl der richtigen Stärke bleibt ein kniffliges Problem: Zu stark führt zu wenig Anpassung, zu schwach kann das Modell „Reward‑Hacking“ betreiben. Traditionell werden mehrere Modelle mit unterschiedlichen Regularisierungswerten trainiert und anschließend der beste ausgewählt – ein Prozess, der enorme Rechenressourcen erfordert.