TreeGRPO: Effiziente RL-Post-Training-Strategie für Diffusionsmodelle
Reinforcement‑Learning‑Post‑Training ist entscheidend, um generative Modelle an menschliche Präferenzen anzupassen, doch die hohen Rechenkosten hemmen die breite Anwendung. TreeGRPO bietet eine neue Lösung, indem es den…