LLM-Training neu: Selbstkorrigierende, lange Denkketten steigern Matheleistung
In den letzten Jahren haben große Sprachmodelle (LLMs) beeindruckende Fortschritte bei komplexen Denkaufgaben gezeigt, insbesondere bei mathematischen Problemen. Bisher konzentrierte sich die Forschung überwiegend auf R…
- In den letzten Jahren haben große Sprachmodelle (LLMs) beeindruckende Fortschritte bei komplexen Denkaufgaben gezeigt, insbesondere bei mathematischen Problemen.
- Bisher konzentrierte sich die Forschung überwiegend auf Reinforcement‑Learning‑Ansätze und vernachlässigte dabei die Möglichkeiten des supervised fine‑tuning (SFT).
- Das neue Verfahren, vorgestellt in der Arbeit „Dual‑Phase LLM Reasoning“, kombiniert beide Ansätze zu einem leistungsstarken, zweistufigen Trainingsframework.
In den letzten Jahren haben große Sprachmodelle (LLMs) beeindruckende Fortschritte bei komplexen Denkaufgaben gezeigt, insbesondere bei mathematischen Problemen. Bisher konzentrierte sich die Forschung überwiegend auf Reinforcement‑Learning‑Ansätze und vernachlässigte dabei die Möglichkeiten des supervised fine‑tuning (SFT). Das neue Verfahren, vorgestellt in der Arbeit „Dual‑Phase LLM Reasoning“, kombiniert beide Ansätze zu einem leistungsstarken, zweistufigen Trainingsframework.
Im ersten Schritt nutzt das Modell eine mehrstufige Dialogstrategie, um selbstständig lange Chain‑of‑Thought‑(CoT) Daten zu generieren. Dabei werden gezielt Verifikations‑, Rückverfolgungs‑, Unterziel‑Decomposition‑ und Rückwärts‑Reasoning‑Techniken eingesetzt. Anschließend filtert ein Regelwerk die hochwertigsten Samples heraus, die anschließend für das supervised fine‑tuning verwendet werden. Dieser Prozess aktiviert die inhärente Denkfähigkeit des Modells und ermöglicht eine gezielte Selbstkorrektur.
Der zweite Trainingsabschnitt führt ein schwierigkeitssensitives Rejection‑Sampling ein, das die Datenverteilung dynamisch anpasst. Dadurch wird die Fähigkeit des Modells, besonders anspruchsvolle Aufgaben zu bewältigen, weiter gestärkt. Die erzeugten Denkketten sind dabei bis zu viermal länger als bei bisherigen Ansätzen, ohne die Skalierbarkeit zu beeinträchtigen. Das Ergebnis ist ein Modell, das komplexe Probleme effizienter löst und gleichzeitig ressourcenschonend bleibt.
Experimentelle Tests auf den mathematischen Benchmarks GSM8K, MATH500 und dem AIME24‑Wettbewerb zeigen deutliche Leistungssteigerungen. Das feinabgestimmte Modell erzielt signifikante Verbesserungen bei hochrangigen Aufgaben und demonstriert damit die Effektivität von SFT in Kombination mit selbstgenerierten, qualitativ hochwertigen CoT‑Daten. Der zugehörige Code wird als Open‑Source bereitgestellt, sodass die Forschungsgemeinschaft die Methode leicht übernehmen und weiterentwickeln kann.
Welche Linse du auf diese Meldung legen solltest
LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.