Forschung arXiv – cs.LG

Reinforcement‑Learning-Agent behebt Verteilungsunterschiede für Off‑Policy‑SFT

Große Sprachmodelle haben in den letzten Jahren enorme Fortschritte erzielt, doch ihre Anpassung an spezifische Anwendungsfälle erfolgt häufig noch über klassisches Supervised Fine‑Tuning (SFT). Wenn die Daten, die für…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Große Sprachmodelle haben in den letzten Jahren enorme Fortschritte erzielt, doch ihre Anpassung an spezifische Anwendungsfälle erfolgt häufig noch über klassisches Supe…
  • Wenn die Daten, die für das Fine‑Tuning verwendet werden, stark von der ursprünglichen Trainingsverteilung abweichen, kann SFT zu einem katastrophalen Vergessen führen.
  • Eine vielversprechende Lösung ist das sogenannte „Data Rewriting“, bei dem die Trainingsdaten vor dem SFT neu formuliert werden.

Große Sprachmodelle haben in den letzten Jahren enorme Fortschritte erzielt, doch ihre Anpassung an spezifische Anwendungsfälle erfolgt häufig noch über klassisches Supervised Fine‑Tuning (SFT). Wenn die Daten, die für das Fine‑Tuning verwendet werden, stark von der ursprünglichen Trainingsverteilung abweichen, kann SFT zu einem katastrophalen Vergessen führen.

Eine vielversprechende Lösung ist das sogenannte „Data Rewriting“, bei dem die Trainingsdaten vor dem SFT neu formuliert werden. Bisher wurden Rewrites jedoch meist aus einer promptbasierten bedingten Verteilung gezogen, sodass die erzeugten Ziele nicht immer mit der natürlichen QA‑Stil‑Generierung des Modells übereinstimmen. Zudem führen starre Vorlagen häufig zu einer Einengung der Vielfalt.

Die neue Methode betrachtet Data Rewriting als ein Policy‑Learning‑Problem und nutzt Reinforcement Learning, um eine Rewrite‑Policy zu trainieren, die sowohl die QA‑Stil‑Verteilung des Modells als auch die Vielfalt der Daten besser abbildet. Durch einen harten Task‑Consistency‑Gate werden nur Rewrites akzeptiert, die die ursprüngliche Aufgabenstellung erhalten. Das Ergebnis ist ein qualitativ hochwertigeres, diversifiziertes Datenset für das nachfolgende SFT.

Umfangreiche Experimente zeigen, dass der Ansatz vergleichbare Leistungssteigerungen wie herkömmliches SFT erzielt, gleichzeitig aber das Vergessen bei nicht‑downstream‑Benchmarks deutlich reduziert wird. Damit bietet die RL‑basierte Rewrite‑Agenten‑Strategie einen robusten Weg, um Verteilungsunterschiede zu überwinden und die Stabilität von Off‑Policy‑SFT zu erhöhen.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?
Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.