GUITester: Automatisierte GUI‑Tests mit KI – neue Benchmark und Framework

Exploratives GUI‑Testing ist ein entscheidender Faktor für die Qualität von Software, doch die hohen manuellen Kosten hemmen die Effizienz. Multi‑modal Large Language Models (MLLM) zeigen zwar hervorragende Navigationsfähigkeiten, stoßen jedoch an zwei zentrale Grenzen: Zielorientiertes Maskieren, bei dem Agenten Aufgabenabschluss über das Melden von Anomalien stellen, und Attribution von Ausführungsfehlern, bei denen Systemdefekte fälschlicherweise als Agentenfehler interpretiert werden.

Um diese Herausforderungen zu überwinden, stellen die Autoren GUITestBench vor – die erste interaktive Benchmark für exploratives GUI‑Testing. Sie umfasst 143 Aufgaben, die 26 verschiedene Defekte abdecken, und bietet damit eine solide Grundlage für die Bewertung neuer Ansätze.

Im Anschluss wird GUITester als Multi‑Agenten‑Framework vorgestellt. Es trennt Navigation von Verifikation durch zwei spezialisierte Module: das Planning‑Execution‑Module (PEM), das proaktiv nach Defekten sucht, und das Hierarchical Reflection‑Module (HRM), das Attributionskonflikte anhand der Interaktionshistorie klärt.

GUITester erzielt einen F1‑Score von 48,90 % (Pass@3) auf GUITestBench und übertrifft damit die führenden Baselines um mehr als 15 %. Diese Ergebnisse zeigen, dass autonome explorative Tests nicht nur machbar, sondern auch leistungsfähig sind.

Der zugehörige Code ist bereits auf GitHub verfügbar und bietet Entwicklern und Forschern eine robuste Basis für die Weiterentwicklung von GUI‑Qualitätssicherung.

Ähnliche Artikel

🍪 Cookie-Einstellungen