RIFT: Negative Beispiele nutzen – Ausrichtung mit belohnungsinformiertem Feintuning
Ein neues Verfahren namens Reward Informed Fine‑Tuning (RIFT) verspricht, die Effizienz der KI‑Ausrichtung deutlich zu steigern. RIFT nutzt sämtliche selbstgenerierten Daten, anstatt wertvolle negative Beispiele zu verw…