ScRPO: Selbstkorrektur-Algorithmus verbessert Sprachmodelle bei Mathematikaufgaben
In einer neuen Veröffentlichung auf arXiv wird ScRPO – Self‑Correction Relative Policy Optimization – vorgestellt, ein innovatives Reinforcement‑Learning‑Framework, das große Sprachmodelle gezielt bei komplexen mathemat…