LLM-Agenten adaptieren live: Neue Testzeit-Methoden steigern Generalisierung
Die neuesten Erkenntnisse aus der KI‑Forschung zeigen, dass große Sprachmodelle (LLMs), die als Agenten eingesetzt werden, bei der Bewältigung unbekannter und komplexer Umgebungen – etwa neuer Webseiten oder bislang nicht vorhandener Funktionssets – stark an ihre Grenzen stoßen. Der Grund liegt in einem fundamentalen Missverhältnis zwischen den Bedingungen, unter denen die Modelle vortrainiert wurden, und denen, denen sie im Einsatz ausgesetzt sind. Dabei treten zwei Hauptfehler auf: Erstens ein syntaktisches Missverständnis der umgebungsspezifischen Elemente wie Beobachtungsformate, und zweitens ein semantisches Missverständnis der Zustandsübergangsdynamik, die erst im Testzeitpunkt sichtbar wird.