Forschung arXiv – cs.LG

LLM-Training neu: Selbstkorrigierende, lange Denkketten steigern Matheleistung

In den letzten Jahren haben große Sprachmodelle (LLMs) beeindruckende Fortschritte bei komplexen Denkaufgaben gezeigt, insbesondere bei mathematischen Problemen. Bisher konzentrierte sich die Forschung überwiegend auf R…

≈2 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • In den letzten Jahren haben große Sprachmodelle (LLMs) beeindruckende Fortschritte bei komplexen Denkaufgaben gezeigt, insbesondere bei mathematischen Problemen.
  • Bisher konzentrierte sich die Forschung überwiegend auf Reinforcement‑Learning‑Ansätze und vernachlässigte dabei die Möglichkeiten des supervised fine‑tuning (SFT).
  • Das neue Verfahren, vorgestellt in der Arbeit „Dual‑Phase LLM Reasoning“, kombiniert beide Ansätze zu einem leistungsstarken, zweistufigen Trainingsframework.

In den letzten Jahren haben große Sprachmodelle (LLMs) beeindruckende Fortschritte bei komplexen Denkaufgaben gezeigt, insbesondere bei mathematischen Problemen. Bisher konzentrierte sich die Forschung überwiegend auf Reinforcement‑Learning‑Ansätze und vernachlässigte dabei die Möglichkeiten des supervised fine‑tuning (SFT). Das neue Verfahren, vorgestellt in der Arbeit „Dual‑Phase LLM Reasoning“, kombiniert beide Ansätze zu einem leistungsstarken, zweistufigen Trainingsframework.

Im ersten Schritt nutzt das Modell eine mehrstufige Dialogstrategie, um selbstständig lange Chain‑of‑Thought‑(CoT) Daten zu generieren. Dabei werden gezielt Verifikations‑, Rückverfolgungs‑, Unterziel‑Decomposition‑ und Rückwärts‑Reasoning‑Techniken eingesetzt. Anschließend filtert ein Regelwerk die hochwertigsten Samples heraus, die anschließend für das supervised fine‑tuning verwendet werden. Dieser Prozess aktiviert die inhärente Denkfähigkeit des Modells und ermöglicht eine gezielte Selbstkorrektur.

Der zweite Trainingsabschnitt führt ein schwierigkeitssensitives Rejection‑Sampling ein, das die Datenverteilung dynamisch anpasst. Dadurch wird die Fähigkeit des Modells, besonders anspruchsvolle Aufgaben zu bewältigen, weiter gestärkt. Die erzeugten Denkketten sind dabei bis zu viermal länger als bei bisherigen Ansätzen, ohne die Skalierbarkeit zu beeinträchtigen. Das Ergebnis ist ein Modell, das komplexe Probleme effizienter löst und gleichzeitig ressourcenschonend bleibt.

Experimentelle Tests auf den mathematischen Benchmarks GSM8K, MATH500 und dem AIME24‑Wettbewerb zeigen deutliche Leistungssteigerungen. Das feinabgestimmte Modell erzielt signifikante Verbesserungen bei hochrangigen Aufgaben und demonstriert damit die Effektivität von SFT in Kombination mit selbstgenerierten, qualitativ hochwertigen CoT‑Daten. Der zugehörige Code wird als Open‑Source bereitgestellt, sodass die Forschungsgemeinschaft die Methode leicht übernehmen und weiterentwickeln kann.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.

Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.

Welches konkrete Problem loest das Modell besser als bisher?
Was bedeutet die Neuerung fuer Geschwindigkeit, Kosten oder Zuverlaessigkeit?
Was veraendert sich praktisch?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

LLM
LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.
Reinforcement Learning
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Supervised Fine-Tuning
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen