GUITester: Automatisierte GUI‑Tests mit KI – neue Benchmark und Framework
Exploratives GUI‑Testing ist ein entscheidender Faktor für die Qualität von Software, doch die hohen manuellen Kosten hemmen die Effizienz. Multi‑modal Large Language Models (MLLM) zeigen zwar hervorragende Navigationsfähigkeiten, stoßen jedoch an zwei zentrale Grenzen: Zielorientiertes Maskieren, bei dem Agenten Aufgabenabschluss über das Melden von Anomalien stellen, und Attribution von Ausführungsfehlern, bei denen Systemdefekte fälschlicherweise als Agentenfehler interpretiert werden.