DoVer: Interventionsbasierte Fehlersuche für Multi-Agenten-LLM-Systeme

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Die Fehlersuche in Multi-Agenten-Systemen, die auf großen Sprachmodellen (LLMs) basieren, gestaltet sich besonders schwierig, weil Fehler häufig aus langen, verzweigten Interaktionsspuren entstehen. Der bisher dominante Ansatz nutzt LLMs, um Fehler anhand von Logdaten einem bestimmten Agenten und Schritt zuzuordnen. Dieser Ansatz hat jedoch zwei gravierende Schwächen: Erstens liefert das reine Log‑Debugging keine Validierung, sodass Hypothesen ungetestet bleiben. Zweitens ist die Zuordnung zu einem einzelnen Agenten oder Schritt oft unklar, weil mehrere unterschiedliche Interventionen gleichzeitig den Fehler beheben können.

Um diese Probleme zu lösen, präsentiert die Forschung DoVer – ein interventionsbasiertes Debugging‑Framework. DoVer ergänzt die Hypothesenbildung durch aktive Verifikation mittels gezielter Interventionen, etwa durch das Bearbeiten von Nachrichten oder das Anpassen von Plänen. Anstatt die Genauigkeit der Fehlerzuordnung zu messen, bewertet DoVer, ob das System den Fehler behebt oder messbare Fortschritte in Richtung des Zieles erzielt. Diese ergebnisorientierte Sichtweise spiegelt die tatsächliche Wirksamkeit von Debugging‑Maßnahmen besser wider.

In der Magnetic‑One Agent‑Umgebung zeigte DoVer beeindruckende Ergebnisse: Auf Datensätzen aus GAIA und AssistantBench konnte es 18 % bis 28 % der fehlgeschlagenen Versuche in erfolgreiche umwandeln, erreichte bis zu 16 % Fortschritt bei Meilensteinen und bestätigte oder widerlegte 30 % bis 60 % der Fehlerhypothesen. Auf einem anderen Datensatz, GSMPlus, und mit einem anderen Agentenframework, AG2, konnte DoVer 49 % der fehlgeschlagenen Versuche wiederherstellen. Diese Befunde unterstreichen, dass gezielte Interventionen ein praktisches Mittel zur Steigerung der Zuverlässigkeit von agentischen Systemen darstellen und neue Wege für robustere Lösungen eröffnen.

Ähnliche Artikel