On‑Policy-Expertenkorrekturen steigern Multi‑Turn-LM-Agenten
Im Bereich der Sprachmodell‑Agenten hat sich das Training über Imitationslernen etabliert: Modelle werden anhand von Experten‑Trajektorien feinjustiert. Doch die herkömmliche Vorgehensweise leidet unter dem sogenannten…
- Im Bereich der Sprachmodell‑Agenten hat sich das Training über Imitationslernen etabliert: Modelle werden anhand von Experten‑Trajektorien feinjustiert.
- Doch die herkömmliche Vorgehensweise leidet unter dem sogenannten Covariate‑Shift: Sobald das Agenten‑Verhalten vom Experten abweicht, stößt es auf Zustände, die im Trai…
- In Anlehnung an den klassischen DAgger‑Algorithmus schlägt die neue Studie eine innovative Datengenerierung vor.
Im Bereich der Sprachmodell‑Agenten hat sich das Training über Imitationslernen etabliert: Modelle werden anhand von Experten‑Trajektorien feinjustiert. Doch die herkömmliche Vorgehensweise leidet unter dem sogenannten Covariate‑Shift: Sobald das Agenten‑Verhalten vom Experten abweicht, stößt es auf Zustände, die im Trainingsdatensatz nicht vorkamen, und die Effektivität der Feinabstimmung nimmt ab.
In Anlehnung an den klassischen DAgger‑Algorithmus schlägt die neue Studie eine innovative Datengenerierung vor. Die Methode nennt sich On‑Policy‑Expertenkorrekturen (OECs). Dabei startet ein Rollout zunächst mit dem Lernenden, wechselt aber mittendrin zum Expertenmodell. So entstehen Trajektorien, die sowohl die Perspektive des Lernenden als auch die Korrekturen des Experten widerspiegeln.
Die Wirksamkeit der OEC‑Strategie wurde im Bereich der Software‑Engineering‑Aufgaben getestet, wo LLM‑Agenten in einer Entwicklungsumgebung Bugs beheben müssen. Im Vergleich zu herkömmlichen Imitationslernen‑Ansätzen und anderen On‑Policy‑Methoden erzielten die OEC‑Trajektorien in den 7‑billionen‑ und 32‑billionen‑Parameter‑Modellen eine relative Verbesserung von 14 % bzw. 13 % auf dem SWE‑Bench‑Verifizierungsset.
Die Ergebnisse unterstreichen die Notwendigkeit, Experten‑Demonstrationen mit On‑Policy‑Daten zu kombinieren, um Multi‑Turn‑LM‑Agenten effektiv zu trainieren. Diese Erkenntnisse eröffnen neue Wege für robustere und kontextsensitivere Sprachmodell‑Agenten in komplexen Interaktionsszenarien.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.