Forschung
ScRPO: Selbstkorrektur-Algorithmus verbessert Sprachmodelle bei Mathematikaufgaben
In einer neuen Veröffentlichung auf arXiv wird ScRPO – Self‑Correction Relative Policy Optimization – vorgestellt, ein innovatives Reinforc…
arXiv – cs.AI