Kurvenbasierte Adaptive Rekursion beschleunigt Training von Tiny Recursive Modellen
Recursive‑Reasoning‑Modelle erreichen mit iterativer Verfeinerung beeindruckende Ergebnisse bei komplexen Aufgaben und ermöglichen es winzigen Netzwerken, die Leistung großer Sprachmodelle zu erreichen – obwohl sie tausendfach kleiner sind. Trotz dieser Vorteile bleibt das Training rechenintensiv: Frühere Studien berichteten etwa 36 GPU‑Stunden pro Datensatz, was die breite Nutzung stark einschränkt.
Die neue Methode CGAR (Curriculum Guided Adaptive Recursion) löst dieses Problem, indem sie Curriculum Learning auf die architektonische Tiefe anwendet statt auf die Datenreihenfolge. CGAR kombiniert zwei wirkungsvolle Ansätze: Erstens passt das Progressive Depth Curriculum die Rekursionstiefe während des Trainings schrittweise von flach zu tief an, wodurch frühes Overfitting vermieden und die Rechenlast reduziert wird. Zweitens gewichtet das Hierarchical Supervision Weighting die Verlustschritte exponentiell ab, sodass die Bedeutung der Supervision mit dem abnehmenden Gradientenabfall übereinstimmt.
Auf dem Sudoku‑Extreme‑Datensatz mit 423 168 Testpuzzles erzielte CGAR einen Trainingsgeschwindigkeitszuwachs von 1,71‑fach (von 10,93 h auf 6,38 h) und senkte die Kosten um 42 %, während die Genauigkeit nur um 0,63 % (von 86,65 % auf 86,02 %) zurückging. Ablationsstudien zeigen, dass das Progressive Depth Curriculum allein bereits einen 2,26‑fachen Speed‑Up liefert und die Genauigkeit bei 85,47 % hält – ein seltenes Pareto‑Improvement, bei dem Effizienz und Qualität gleichzeitig steigen.
Darüber hinaus profitieren CGAR‑trainierte Modelle von einer verbesserten Inferenzeffizienz: Sie erreichen 100 % Halting‑Accuracy und benötigen 11 % weniger Rechenschritte. Diese Ergebnisse demonstrieren, dass ein gezieltes Curriculum für die architektonische Tiefe die Trainingszeit von rekursiven Modellen drastisch senken und gleichzeitig ihre Leistungsfähigkeit erhalten oder sogar steigern kann.