Forschung
DIVA‑GRPO: Mehrschichtige Logik mit anpassbarer Schwierigkeitsstufe
Reinforcement‑Learning‑Modelle, die auf Group Relative Policy Optimization (GRPO) setzen, haben sich als effektive Methode etabliert, um di…
arXiv – cs.AI