AgentAssay: Kostenreduktion von bis zu 100 % bei Regressionstests von KI-Agenten

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Autonome KI‑Agenten werden heute in einem noch nie dagewesenen Ausmaß eingesetzt, doch bislang fehlt eine systematische Methode, um sicherzustellen, dass Änderungen an Prompt, Tool, Modell oder Orchestrierung keine unerwünschten Regressionen verursachen. Mit AgentAssay wird dieses Problem endlich adressiert.

AgentAssay ist das erste token‑effiziente Framework für Regressionstests von nichtdeterministischen Agenten‑Workflows. Es reduziert die Testkosten um 78 % bis zu 100 % und liefert gleichzeitig rigorose statistische Garantien, sodass Entwickler mit Vertrauen Änderungen vornehmen können.

Die Innovationen von AgentAssay umfassen: stochastische dreiwertige Urteile (PASS/FAIL/INCONCLUSIVE) auf Basis von Hypothesentests; fünfdimensionale Coverage‑Metriken, die sämtliche Agenten‑Komponenten abdecken; maßgeschneiderte Mutationstester für Agenten; metamorphische Relationen, die die Logik von Workflows prüfen; CI/CD‑Gate‑Mechanismen als statistische Entscheidungsprozesse; ein Verhaltens‑Fingerabdruck, der Ausführungspfade in kompakte Vektoren überführt und so multivariate Regressionen erkennt; adaptive Budgetoptimierung, die die Anzahl der Testläufe an die beobachtete Verhaltensvarianz anpasst; und trace‑first‑Offline‑Analyse, die kostenfreie Tests auf Produktions‑Traces ermöglicht.

In umfangreichen Experimenten mit fünf führenden Modellen (GPT‑5.2, Claude Sonnet 4.6, Mistral‑Large‑3, Llama‑4‑Maverick, Phi‑4), drei Szenarien und 7.605 Trials zeigte sich, dass der Fingerabdruck‑Ansatz eine Erkennungsleistung von 86 % erzielt, während klassische binäre Tests keine Regressionen erkennen. Der Einsatz von SPRT reduziert die benötigten Testläufe um 78 %, und die vollständige Pipeline erreicht dank trace‑first‑Analyse eine 100 %ige Kosteneinsparung.

Die Implementierung besteht aus über 20.000 Zeilen Python, 751 Unit‑Tests und zehn Framework‑Adaptern, was die Skalierbarkeit und Integration in bestehende CI/CD‑Umgebungen erleichtert.