On‑Policy-Expertenkorrekturen steigern Multi‑Turn-LM-Agenten

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Im Bereich der Sprachmodell‑Agenten hat sich das Training über Imitationslernen etabliert: Modelle werden anhand von Experten‑Trajektorien feinjustiert. Doch die herkömmliche Vorgehensweise leidet unter dem sogenannten Covariate‑Shift: Sobald das Agenten‑Verhalten vom Experten abweicht, stößt es auf Zustände, die im Trainingsdatensatz nicht vorkamen, und die Effektivität der Feinabstimmung nimmt ab.

In Anlehnung an den klassischen DAgger‑Algorithmus schlägt die neue Studie eine innovative Daten­generierung vor. Die Methode nennt sich On‑Policy‑Expertenkorrekturen (OECs). Dabei startet ein Rollout zunächst mit dem Lernenden, wechselt aber mittendrin zum Expertenmodell. So entstehen Trajektorien, die sowohl die Perspektive des Lernenden als auch die Korrekturen des Experten widerspiegeln.

Die Wirksamkeit der OEC‑Strategie wurde im Bereich der Software‑Engineering‑Aufgaben getestet, wo LLM‑Agenten in einer Entwicklungsumgebung Bugs beheben müssen. Im Vergleich zu herkömmlichen Imitationslernen‑Ansätzen und anderen On‑Policy‑Methoden erzielten die OEC‑Trajektorien in den 7‑billionen‑ und 32‑billionen‑Parameter‑Modellen eine relative Verbesserung von 14 % bzw. 13 % auf dem SWE‑Bench‑Verifizierungsset.

Die Ergebnisse unterstreichen die Notwendigkeit, Experten‑Demonstrationen mit On‑Policy‑Daten zu kombinieren, um Multi‑Turn‑LM‑Agenten effektiv zu trainieren. Diese Erkenntnisse eröffnen neue Wege für robustere und kontextsensitivere Sprachmodell‑Agenten in komplexen Interaktionsszenarien.

Ähnliche Artikel