RIFT: Negative Beispiele nutzen – Ausrichtung mit belohnungsinformiertem Feintuning
Ein neues Verfahren namens Reward Informed Fine‑Tuning (RIFT) verspricht, die Effizienz der KI‑Ausrichtung deutlich zu steigern. RIFT nutzt sämtliche selbstgenerierten Daten, anstatt wertvolle negative Beispiele zu verwerfen.
Traditionelle Ansätze wie Supervised Fine‑Tuning (SFT) und Rejection Sampling Fine‑Tuning (RFT) haben jeweils ihre Schwächen: SFT erfordert teure Experten‑Annotationsdaten, während RFT negative Trajektorien einfach ausschließt und dadurch Datenverschwendung verursacht.
RIFT geht einen anderen Weg. Statt harte Schwellenwerte zu setzen, wird jede negative Trajektorie neu bewertet. Durch die Gewichtung des Verlustes mit skalaren Belohnungen lernt das Modell sowohl aus positiven als auch aus negativen Ausgaben, wodurch mehr Informationen aus denselben Daten extrahiert werden.
Ein zentrales Problem bei der direkten Integration von Belohnungen ist die Gefahr eines Trainingsabsturzes, weil der Verlust unbeschränkt wachsen kann. RIFT löst dieses Problem mit einer stabilisierten Verlustformulierung, die numerische Robustheit und effiziente Optimierung garantiert.
Um die Wirksamkeit zu prüfen, wurden umfangreiche Tests an mathematischen Benchmarks mit verschiedenen Basis‑Modellen durchgeführt. Die Ergebnisse zeigen, dass RIFT RFT konsequent übertrifft und dabei weniger Daten benötigt.
Zusammenfassend bietet RIFT eine robuste und daten‑effiziente Alternative zur KI‑Ausrichtung, die sowohl positive als auch negative selbstgenerierte Daten optimal nutzt.