On‑Policy-Expertenkorrekturen steigern Multi‑Turn-LM-Agenten

Kernaussagen

Das nimmst du aus dem Beitrag mit

Im Bereich der Sprachmodell‑Agenten hat sich das Training über Imitationslernen etabliert: Modelle werden anhand von Experten‑Trajektorien feinjustiert.
Doch die herkömmliche Vorgehensweise leidet unter dem sogenannten Covariate‑Shift: Sobald das Agenten‑Verhalten vom Experten abweicht, stößt es auf Zustände, die im Trai…
In Anlehnung an den klassischen DAgger‑Algorithmus schlägt die neue Studie eine innovative Datengenerierung vor.

Im Bereich der Sprachmodell‑Agenten hat sich das Training über Imitationslernen etabliert: Modelle werden anhand von Experten‑Trajektorien feinjustiert. Doch die herkömmliche Vorgehensweise leidet unter dem sogenannten Covariate‑Shift: Sobald das Agenten‑Verhalten vom Experten abweicht, stößt es auf Zustände, die im Trainingsdatensatz nicht vorkamen, und die Effektivität der Feinabstimmung nimmt ab.

In Anlehnung an den klassischen DAgger‑Algorithmus schlägt die neue Studie eine innovative Datengenerierung vor. Die Methode nennt sich On‑Policy‑Expertenkorrekturen (OECs). Dabei startet ein Rollout zunächst mit dem Lernenden, wechselt aber mittendrin zum Expertenmodell. So entstehen Trajektorien, die sowohl die Perspektive des Lernenden als auch die Korrekturen des Experten widerspiegeln.

Die Wirksamkeit der OEC‑Strategie wurde im Bereich der Software‑Engineering‑Aufgaben getestet, wo LLM‑Agenten in einer Entwicklungsumgebung Bugs beheben müssen. Im Vergleich zu herkömmlichen Imitationslernen‑Ansätzen und anderen On‑Policy‑Methoden erzielten die OEC‑Trajektorien in den 7‑billionen‑ und 32‑billionen‑Parameter‑Modellen eine relative Verbesserung von 14 % bzw. 13 % auf dem SWE‑Bench‑Verifizierungsset.

Die Ergebnisse unterstreichen die Notwendigkeit, Experten‑Demonstrationen mit On‑Policy‑Daten zu kombinieren, um Multi‑Turn‑LM‑Agenten effektiv zu trainieren. Diese Erkenntnisse eröffnen neue Wege für robustere und kontextsensitivere Sprachmodell‑Agenten in komplexen Interaktionsszenarien.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?

Ist das eher Signal, Produkt oder nur kurzfristiger Hype?

Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Sprachmodell-Agenten

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Imitationslernen

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Covariate Shift

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

arXiv – cs.LG

Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.

Lernpfad

Wenn du nach dieser Meldung weiterlernen willst

Themen-Hub

Sprachmodell-Agenten systematisch verfolgen

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Archiv

Weitere Beispiele zu Sprachmodell-Agenten

Nutze das Archiv, um Muster, Wiederholungen und Trendlinien innerhalb des Themas zu sehen.

Im Themen-Cluster weiter

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Themen-Hub

Sprachmodell-Agenten

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

0 Signale in 7 Tagen • 6 Artikel im Hub

Hub oeffnen →

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Aehnliche Entwicklungen zum Weiterlesen

🍪 Cookie-Einstellungen