Reinforcement‑Learning-Agent behebt Verteilungsunterschiede für Off‑Policy‑SFT
Große Sprachmodelle haben in den letzten Jahren enorme Fortschritte erzielt, doch ihre Anpassung an spezifische Anwendungsfälle erfolgt häufig noch über klassisches Supervised Fine‑Tuning (SFT). Wenn die Daten, die für…
- Große Sprachmodelle haben in den letzten Jahren enorme Fortschritte erzielt, doch ihre Anpassung an spezifische Anwendungsfälle erfolgt häufig noch über klassisches Supe…
- Wenn die Daten, die für das Fine‑Tuning verwendet werden, stark von der ursprünglichen Trainingsverteilung abweichen, kann SFT zu einem katastrophalen Vergessen führen.
- Eine vielversprechende Lösung ist das sogenannte „Data Rewriting“, bei dem die Trainingsdaten vor dem SFT neu formuliert werden.
Große Sprachmodelle haben in den letzten Jahren enorme Fortschritte erzielt, doch ihre Anpassung an spezifische Anwendungsfälle erfolgt häufig noch über klassisches Supervised Fine‑Tuning (SFT). Wenn die Daten, die für das Fine‑Tuning verwendet werden, stark von der ursprünglichen Trainingsverteilung abweichen, kann SFT zu einem katastrophalen Vergessen führen.
Eine vielversprechende Lösung ist das sogenannte „Data Rewriting“, bei dem die Trainingsdaten vor dem SFT neu formuliert werden. Bisher wurden Rewrites jedoch meist aus einer promptbasierten bedingten Verteilung gezogen, sodass die erzeugten Ziele nicht immer mit der natürlichen QA‑Stil‑Generierung des Modells übereinstimmen. Zudem führen starre Vorlagen häufig zu einer Einengung der Vielfalt.
Die neue Methode betrachtet Data Rewriting als ein Policy‑Learning‑Problem und nutzt Reinforcement Learning, um eine Rewrite‑Policy zu trainieren, die sowohl die QA‑Stil‑Verteilung des Modells als auch die Vielfalt der Daten besser abbildet. Durch einen harten Task‑Consistency‑Gate werden nur Rewrites akzeptiert, die die ursprüngliche Aufgabenstellung erhalten. Das Ergebnis ist ein qualitativ hochwertigeres, diversifiziertes Datenset für das nachfolgende SFT.
Umfangreiche Experimente zeigen, dass der Ansatz vergleichbare Leistungssteigerungen wie herkömmliches SFT erzielt, gleichzeitig aber das Vergessen bei nicht‑downstream‑Benchmarks deutlich reduziert wird. Damit bietet die RL‑basierte Rewrite‑Agenten‑Strategie einen robusten Weg, um Verteilungsunterschiede zu überwinden und die Stabilität von Off‑Policy‑SFT zu erhöhen.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.