LLM-Agenten: Kleine Fehler, große Folgen – Neue Schutzmethode reduziert Ausfälle

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

Die Leistungsfähigkeit von Large‑Language‑Model‑Agenten (LLM‑Agenten) bei Aufgaben mit langen Zeithorizonten und Tool‑Nutzung bleibt trotz schneller Fortschritte fragil. Forscher haben sich gefragt, ob jede Aktion gleichermaßen zum Scheitern beiträgt, und haben dafür die Ausführungspfade von Modellen auf den Benchmarks tau‑Bench (Airline/Retail) und SWE‑Bench Verified untersucht.

Durch die Aufteilung der Trajektorien in mutierende (umweltverändernde) und nicht‑mutierende Schritte konnten sie „entscheidende Abweichungen“ identifizieren – die frühesten Aktionen, bei denen ein Abweichungsergebnis den Erfolg in ein Scheitern kippt. Eine logistische Regression zeigte, dass jede zusätzliche Abweichung in einem mutierenden Schritt die Erfolgschancen um bis zu 92 % bei Airline‑Aufgaben und 96 % bei Retail‑Aufgaben senkt. Abweichungen in nicht‑mutierenden Schritten haben dagegen kaum Einfluss. Gleichzeitig stiegen die Fehler mit zunehmender Kontextlänge, weil Agenten vom Rollenverständnis abweichen und veraltete Einschränkungen anwenden.

Auf Basis dieser Erkenntnisse entwickelte das Team SABER, eine modellunabhängige, gradientsfreie Testzeit‑Sicherheitsmaßnahme. SABER fügt mutationsgesteuerte Verifikationen hinzu, integriert gezielte Reflexion vor mutierenden Schritten und führt blockbasierte Kontextbereinigung durch. Die Ergebnisse sind beeindruckend: Bei Qwen3‑Thinking erzielte SABER einen relativen Gewinn von 28 % bei Airline‑Aufgaben, 11 % bei Retail und 7 % bei SWE‑Bench Verified; bei Claude wurden 9 % bzw. 7 % Verbesserungen erzielt.

Darüber hinaus identifizierten die Autoren Obergrenzen im tau‑Bench, die durch Annotationsfehler und unklare Aufgabenbeschreibungen künstlich gesetzt wurden. Um diese Beschränkungen zu beheben, veröffentlichen sie tau‑Bench Verified, das die Benchmark‑Kapazität wiederherstellt. Die Studie unterstreicht die Bedeutung von action‑level‑Sicherheitsmechanismen für die Zuverlässigkeit von LLM‑Agenten in komplexen, langfristigen Szenarien.

Ähnliche Artikel