**Neue Bewertungsmethode deckt versteckte Fehler bei KI-Agenten auf**
In hochriskanten Einsatzbereichen werden KI‑Agenten, die auf großen Sprachmodellen (LLMs) basieren, immer häufiger eingesetzt. Bisher messen die meisten Benchmarks lediglich, ob ein Auftrag abgeschlossen wurde – nicht, wie er erledigt wurde. Mit dem neuen Verfahren Procedure‑Aware Evaluation (PAE) wird das Vorgehen der Agenten als strukturierte Beobachtung erfasst und die Konsistenz zwischen Beobachtung, Kommunikation und Ausführung systematisch geprüft.
PAE bewertet Agenten entlang vier ergänzender Achsen: Nutzen (Utility), Effizienz, Interaktionsqualität und prozedurale Integrität. Durch mehrdimensionale Filter (Gating) werden Ergebnisse, die auf versteckten Fehlern beruhen, eindeutig ausgeschlossen. Auf dem tau‑Bench wurden damit bislang unbekannte Schwachstellen aufgedeckt.
Auf Achsenebene zeigen die Ergebnisse, dass hohe Nutzwerte die Zuverlässigkeit verschleiern, Geschwindigkeit nicht gleich Präzision bedeutet und Kürze nicht die Einhaltung der Absicht garantiert. Auf Ebene der prozeduralen Compliance wurden 27 % bis 78 % der als erfolgreich gemeldeten Fälle als „korrupt“ identifiziert – sie verbergen Verletzungen in Interaktion und Integrität.
Die Gating‑Mechanismen reduzieren die Pass‑Rate drastisch und verändern die Rangfolge der Modelle. Die Analyse der korrupten Fälle offenbart charakteristische Fehlerprofile: GPT‑5 verteilt Fehler über Politik, Ausführung und Absicht; Kimi‑K2‑Thinking konzentriert 78 % der Verstöße auf Politik‑Treue und Compliance; Mistral‑Large‑3 ist vor allem durch Treue‑Fehler geprägt.
Auf Benchmark‑Ebene weist die Untersuchung strukturelle Mängel auf, etwa Lücken im Aufgabenumfang und widersprüchliche Vorgaben. Diese Erkenntnisse zeigen, dass ein umfassender Bewertungsrahmen unerlässlich ist, um die tatsächliche Leistungsfähigkeit von LLM‑Agenten in kritischen Anwendungen zuverlässig zu beurteilen.