LLM-Training neu: Selbstkorrigierende, lange Denkketten steigern Matheleistung
In den letzten Jahren haben große Sprachmodelle (LLMs) beeindruckende Fortschritte bei komplexen Denkaufgaben gezeigt, insbesondere bei mathematischen Problemen. Bisher konzentrierte sich die Forschung überwiegend auf Reinforcement‑Learning‑Ansätze und vernachlässigte dabei die Möglichkeiten des supervised fine‑tuning (SFT). Das neue Verfahren, vorgestellt in der Arbeit „Dual‑Phase LLM Reasoning“, kombiniert beide Ansätze zu einem leistungsstarken, zweistufigen Trainingsframework.
Im ersten Schritt nutzt das Modell eine mehrstufige Dialogstrategie, um selbstständig lange Chain‑of‑Thought‑(CoT) Daten zu generieren. Dabei werden gezielt Verifikations‑, Rückverfolgungs‑, Unterziel‑Decomposition‑ und Rückwärts‑Reasoning‑Techniken eingesetzt. Anschließend filtert ein Regelwerk die hochwertigsten Samples heraus, die anschließend für das supervised fine‑tuning verwendet werden. Dieser Prozess aktiviert die inhärente Denkfähigkeit des Modells und ermöglicht eine gezielte Selbstkorrektur.
Der zweite Trainingsabschnitt führt ein schwierigkeitssensitives Rejection‑Sampling ein, das die Datenverteilung dynamisch anpasst. Dadurch wird die Fähigkeit des Modells, besonders anspruchsvolle Aufgaben zu bewältigen, weiter gestärkt. Die erzeugten Denkketten sind dabei bis zu viermal länger als bei bisherigen Ansätzen, ohne die Skalierbarkeit zu beeinträchtigen. Das Ergebnis ist ein Modell, das komplexe Probleme effizienter löst und gleichzeitig ressourcenschonend bleibt.
Experimentelle Tests auf den mathematischen Benchmarks GSM8K, MATH500 und dem AIME24‑Wettbewerb zeigen deutliche Leistungssteigerungen. Das feinabgestimmte Modell erzielt signifikante Verbesserungen bei hochrangigen Aufgaben und demonstriert damit die Effektivität von SFT in Kombination mit selbstgenerierten, qualitativ hochwertigen CoT‑Daten. Der zugehörige Code wird als Open‑Source bereitgestellt, sodass die Forschungsgemeinschaft die Methode leicht übernehmen und weiterentwickeln kann.