Forschung
WS-GRPO: Gruppen-Relative Policy-Optimierung für effizientes Rollout
Die neu entwickelte Methode WS‑GRPO (Weakly‑Supervised Group‑Relative Policy Optimization) adressiert ein zentrales Problem bei der Anwendu…
arXiv – cs.LG