Forschung
TreeGRPO: Effiziente RL-Post-Training-Strategie für Diffusionsmodelle
Reinforcement‑Learning‑Post‑Training ist entscheidend, um generative Modelle an menschliche Präferenzen anzupassen, doch die hohen Rechenko…
arXiv – cs.LG