TreeGRPO: Effiziente RL-Post-Training-Strategie für Diffusionsmodelle

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Reinforcement‑Learning‑Post‑Training ist entscheidend, um generative Modelle an menschliche Präferenzen anzupassen, doch die hohen Rechenkosten hemmen die breite Anwendung. TreeGRPO bietet eine neue Lösung, indem es den Denoising‑Prozess in einen Suchbaum umwandelt und dadurch die Trainingseffizienz deutlich steigert.

Durch die gemeinsame Nutzung von Anfangsrauschen erzeugt TreeGRPO strategisch mehrere Kandidatentransportwege, wobei die gemeinsamen Präfixe wiederverwendet werden. Diese baumartige Struktur liefert drei wesentliche Vorteile: erstens eine hohe Stichproben‑Effizienz, die bessere Ergebnisse bei gleicher Anzahl an Trainingsbeispielen ermöglicht; zweitens eine feinkörnige Kreditzuweisung, bei der die Belohnung schrittweise zurückpropagiert wird und damit die Beschränkung der gleichmäßigen Kreditvergabe von Trajektorien‑Methoden überwunden wird; drittens eine amortisierte Berechnung, bei der mehrere Kinderzweige mehrere Policy‑Updates pro Vorwärtspass erlauben.

Umfangreiche Experimente mit Diffusions‑ und Flow‑basierten Modellen zeigen, dass TreeGRPO das Training um 2,4‑mal schneller macht und gleichzeitig eine überlegene Pareto‑Grenze im Effizienz‑Belohnungs‑Trade‑off‑Raum erreicht. Im Vergleich zu herkömmlichen GRPO‑Baselines übertrifft TreeGRPO konsequent die Leistung auf verschiedenen Benchmarks und Belohnungsmodellen und bietet damit einen skalierbaren und effektiven Weg zur Ausrichtung visueller generativer Modelle mittels RL.

Weitere Informationen und Code finden Sie auf der Projektseite: treegrpo.github.io.

Ähnliche Artikel