ScRPO: Selbstkorrektur-Algorithmus verbessert Sprachmodelle bei Mathematikaufgaben
In einer neuen Veröffentlichung auf arXiv wird ScRPO – Self‑Correction Relative Policy Optimization – vorgestellt, ein innovatives Reinforcement‑Learning‑Framework, das große Sprachmodelle gezielt bei komplexen mathematischen Aufgaben stärkt. Durch die Kombination von Selbstreflexion und Fehlerkorrektur lernt das Modell, aus eigenen Irrtümern zu wachsen und dadurch seine Problemlösungsfähigkeiten nachhaltig zu verbessern.