DaGRPO: Verbesserte LLM-Logik durch Gradientenkorrektur und Distinctiveness
Die Weiterentwicklung großer Sprachmodelle hat den Fokus von oberflächlichem Befolgen von Anweisungen hin zu tiefgreifendem, mehrstufigem Denken verlagert. Das bisher führende Verfahren, Group Relative Policy Optimizati…
- Die Weiterentwicklung großer Sprachmodelle hat den Fokus von oberflächlichem Befolgen von Anweisungen hin zu tiefgreifendem, mehrstufigem Denken verlagert.
- Das bisher führende Verfahren, Group Relative Policy Optimization (GRPO), kann diese Fähigkeiten nach dem Training aktivieren, leidet jedoch unter Instabilität und gerin…
- Die Autoren zeigen, dass das Problem auf fehlende Distinctiveness in den On‑Policy‑Rollouts zurückzuführen ist: Bei einfachen Fragen erzeugen homogene Samples destruktiv…
Die Weiterentwicklung großer Sprachmodelle hat den Fokus von oberflächlichem Befolgen von Anweisungen hin zu tiefgreifendem, mehrstufigem Denken verlagert. Das bisher führende Verfahren, Group Relative Policy Optimization (GRPO), kann diese Fähigkeiten nach dem Training aktivieren, leidet jedoch unter Instabilität und geringer Stichprobeneffizienz. Die Autoren zeigen, dass das Problem auf fehlende Distinctiveness in den On‑Policy‑Rollouts zurückzuführen ist: Bei einfachen Fragen erzeugen homogene Samples destruktive Gradientenkonflikte, während bei schwierigen Fragen die Knappheit positiver Beispiele die Optimierung schwächt.
Um diese Lücken zu schließen, stellen sie Distinctiveness‑aware Group Relative Policy Optimization (DaGRPO) vor. DaGRPO nutzt zwei zentrale Mechanismen: Erstens eine sequentielle Gradientenkorrektur, die mit feingranularen Scoring‑Methoden Paare mit geringer Distinctiveness maskiert und damit Gradientenkonflikte von vornherein eliminiert. Zweitens eine Off‑Policy‑Datenaugmentation, die hochwertige Anchors einführt, um Trainingssignale für anspruchsvolle Aufgaben wiederherzustellen.
Umfangreiche Tests an neun mathematischen Reasoning‑Benchmarks und Out‑of‑Distribution‑Generalisation‑Tests zeigen, dass DaGRPO bestehende SFT‑, GRPO‑ und Hybrid‑Baselines deutlich übertrifft. Insbesondere erzielt es einen durchschnittlichen Genauigkeitsgewinn von +4,7 % auf den Mathematik‑Benchmarks und setzt damit neue Maßstäbe in der LLM‑Reasoning‑Forschung.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.