DaGRPO: Verbesserte LLM-Logik durch Gradientenkorrektur und Distinctiveness
Die Weiterentwicklung großer Sprachmodelle hat den Fokus von oberflächlichem Befolgen von Anweisungen hin zu tiefgreifendem, mehrstufigem Denken verlagert. Das bisher führende Verfahren, Group Relative Policy Optimizati…