Neues Diagnose-Framework steigert Tool-Call-Zuverlässigkeit in Multi-Agent-LLM-Systemen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Multi-Agent-LLM-Systeme verändern die Unternehmensautomatisierung, doch bislang fehlt ein systematisches Verfahren, um die Zuverlässigkeit von Tool‑Aufrufen zu messen. Ein neues Diagnose-Framework füllt diese Lücke, indem es Big‑Data‑Analysen nutzt, um die prozedurale Zuverlässigkeit von intelligenten Agenten zu bewerten.

Das Framework basiert auf einer 12‑Kategorie‑Fehler‑Taxonomie, die sämtliche Fehlerquellen abdeckt – von der Tool‑Initialisierung über die Parameter‑Handhabung bis hin zur Ausführung und Ergebnisinterpretation. Durch diese strukturierte Klassifikation lassen sich Fehlerquellen gezielt identifizieren und beheben.

In einer umfangreichen Evaluation wurden 1.980 deterministische Testfälle auf einer Vielzahl von Modellen und Hardware‑Konfigurationen ausgeführt. Dabei wurden sowohl Open‑Weight‑Modelle wie die Qwen2.5‑Serie und Functionary als auch proprietäre Modelle wie GPT‑4 und Claude 3.5/3.7 getestet. Die Ergebnisse liefern klare Schwellenwerte für die Produktion und zeigen, welche Modelle unter welchen Bedingungen zuverlässig arbeiten.

Ein zentrales Ergebnis ist, dass Tool‑Initialisierungsfehler bei kleineren Modellen den größten Engpass darstellen. Das Modell Qwen2.5:32b erreicht hingegen eine fehlerfreie Leistung, die GPT‑4.1 entspricht. Für ressourcenbeschränkte Organisationen bietet das mittelgroße Modell Qwen2.5:14b einen attraktiven Kompromiss: 96,6 % Erfolgsrate bei einer durchschnittlichen Latenz von 7,3 s auf handelsüblichen Hardware.

Diese Arbeit legt die Grundlage für eine systematische Bewertung der Zuverlässigkeit von tool‑augmentierten Multi‑Agent‑KI‑Systemen und eröffnet damit neue Möglichkeiten für kosteneffiziente, vertrauenswürdige Automatisierungslösungen in Unternehmen.

Ähnliche Artikel