Mehrfachdomänen-Training von LLM-Agenten: Neue Erkenntnisse zur Generalisierung

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

In einer aktuellen Studie von arXiv wird untersucht, wie gut große Sprachmodelle (LLM), die nach dem Training in einer engen Umgebung eingesetzt werden, in völlig unbekannten Domänen funktionieren. Dabei liegt der Fokus auf der post‑Training‑Phase, in der Agenten mit Reinforcement Learning (RL) weiter optimiert werden, obwohl die späteren Einsatzbereiche noch nicht definiert sind.

Die Forscher identifizierten zwei entscheidende Umweltfaktoren, die die Fähigkeit zur Cross‑Domain‑Generalisation stark beeinflussen: Erstens die „State‑Information‑Richness“, also wie viel relevante Information der Agent aus dem aktuellen Zustand extrahieren kann, und zweitens die „Planning Complexity“, gemessen an Zielerreichbarkeit und Trajektorienlänge unter einer Basis‑Policy. Überraschenderweise spielen Faktoren wie die Realitätsnähe der Umgebung oder die Textähnlichkeit zwischen Domänen keine zentrale Rolle. Ein Beispiel dafür ist, dass der einfache Grid‑World‑Spielraum Sokoban Agenten in SciWorld besser vorbereitet als der realistischere ALFWorld.

Auf Basis dieser Erkenntnisse schlagen die Autoren eine einfache, ressourcenschonende Randomisierungsmethode vor: Durch das Hinzufügen kleiner, zielunabhängiger Ablenkungsmerkmale zum Zustandsraum kann die Informationsreichhaltigkeit erhöht werden, ohne die eigentliche Aufgabe zu verändern. Diese Technik verbessert die Robustheit gegenüber neuen Domänen signifikant.

Zusätzlich wurden verschiedene Modellierungsentscheidungen analysiert. Ein SFT‑Warm‑up oder ein Mid‑Training‑Ansatz verhindert katastrophales Vergessen während des RL‑Trainings, schränkt jedoch die Generalisierung auf Domänen ein, die nicht im Mid‑Training‑Datensatz enthalten sind. Weitere Untersuchungen zu spezifischen Trainingsschritten wurden ebenfalls durchgeführt, um die optimale Balance zwischen Spezialisierung und Generalisierung zu finden.

Ähnliche Artikel