Neues Framework zeigt, wie Expertenpfade optimal nach dem Training genutzt werden
Eine aktuelle Studie auf arXiv (2512.11470v1) präsentiert das Plasticity‑Ceiling Framework, das die Nutzung von Expertenpfaden im Post‑Training von großen Sprachmodellen (LLM) neu bewertet. Das Modell kombiniert Supervised Fine‑Tuning (SFT) und Reinforcement Learning (RL) und liefert klare Anweisungen, wann und wie die Übergänge zwischen beiden Phasen erfolgen sollten.
Die Autoren zeigen, dass die sequentielle Abfolge „SFT – dann RL“ die beste Leistung erzielt. Im Gegensatz zu synchronen Ansätzen, die oft instabil sind, ermöglicht diese Reihenfolge eine stabile Basisleistung aus dem SFT und erhält gleichzeitig die Plastizität, die RL für weitere Verbesserungen bereitstellt.
Durch umfangreiche Benchmarks wurden drei zentrale Skalierungsrichtlinien definiert: Erstens maximiert ein Wechsel zu RL in der SFT‑Stabilitäts- oder leichten Überanpassungsphase die Endleistung, ohne die RL‑Plastizität zu beeinträchtigen. Zweitens wird das Konzept „Weniger ist mehr“ widerlegt – die Datenmenge bestimmt das Haupteinkommen des Post‑Trainings, während die Schwierigkeit der Trajektorien als Multiplikator wirkt. Drittens fungiert der minimale Validierungsverlust des SFT als verlässlicher Indikator, um die besten Expertenpfade auszuwählen und damit die endgültige Leistungsgrenze zu erhöhen.
Diese Erkenntnisse liefern praxisnahe Empfehlungen, wie man den Wert von Expertenpfaden maximiert und damit die Leistungsfähigkeit von LLMs nach dem Training deutlich steigern kann.