GIFT: Globale Optimierung nach dem Training durch Gibbs-Initialisierung
Ein neues Verfahren namens GIFT (Gibbs Initialization with Finite Temperature) verspricht, die Leistung von Large Reasoning Models (LRMs) nach dem Training entscheidend zu steigern. Im Gegensatz zum herkömmlichen Ansatz, bei dem ein Modell zunächst mit Supervised Fine‑Tuning (SFT) trainiert und anschließend mit Reinforcement Learning (RL) optimiert wird, identifiziert GIFT ein grundlegendes Problem: SFT führt zu einer zu starken Verengung der Datenverteilung, wodurch die spätere RL‑Phase nicht genügend explorativen Raum zur Verfügung hat.