DoVer: Interventionsbasierte Fehlersuche für Multi-Agenten-LLM-Systeme
Die Fehlersuche in Multi-Agenten-Systemen, die auf großen Sprachmodellen (LLMs) basieren, gestaltet sich besonders schwierig, weil Fehler häufig aus langen, verzweigten Interaktionsspuren entstehen. Der bisher dominante Ansatz nutzt LLMs, um Fehler anhand von Logdaten einem bestimmten Agenten und Schritt zuzuordnen. Dieser Ansatz hat jedoch zwei gravierende Schwächen: Erstens liefert das reine Log‑Debugging keine Validierung, sodass Hypothesen ungetestet bleiben. Zweitens ist die Zuordnung zu einem einzelnen Agenten oder Schritt oft unklar, weil mehrere unterschiedliche Interventionen gleichzeitig den Fehler beheben können.