GIFT: Globale Optimierung nach dem Training durch Gibbs-Initialisierung

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Ein neues Verfahren namens GIFT (Gibbs Initialization with Finite Temperature) verspricht, die Leistung von Large Reasoning Models (LRMs) nach dem Training entscheidend zu steigern. Im Gegensatz zum herkömmlichen Ansatz, bei dem ein Modell zunächst mit Supervised Fine‑Tuning (SFT) trainiert und anschließend mit Reinforcement Learning (RL) optimiert wird, identifiziert GIFT ein grundlegendes Problem: SFT führt zu einer zu starken Verengung der Datenverteilung, wodurch die spätere RL‑Phase nicht genügend explorativen Raum zur Verfügung hat.

GIFT löst dieses Problem, indem es SFT als einen Prozess mit endlicher Temperatur interpretiert. Dabei wird die Supervision nicht als harte Einschränkung, sondern als energetische Potentialfunktion behandelt, die die ursprünglichen Prioritäten des Modells bewahrt. Diese „Temperatur“ schafft eine Brücke zwischen den beiden Phasen und sorgt dafür, dass die Zielsetzungen während des gesamten Post‑Training‑Workflows konsistent bleiben.

Experimentelle Ergebnisse zeigen, dass GIFT die Leistung von LRMs deutlich über dem Standard‑SFT und anderen etablierten Baselines liegt, wenn es als Ausgangspunkt für RL‑Optimierungen eingesetzt wird. Das Verfahren liefert damit einen mathematisch fundierten Weg, globale Optimierung in der Post‑Training‑Phase zu erreichen.

Der zugehörige Code ist öffentlich verfügbar unter https://github.com/zzy1127/GIFT. Die Arbeit wurde auf arXiv unter der Referenz 2601.09233v1 veröffentlicht.

Ähnliche Artikel