ProBench: Neuer Benchmark für GUI-Agenten mit präziser Prozessinformation
Mit der tiefen Verknüpfung von künstlicher Intelligenz und interaktiver Technologie rücken grafische Benutzeroberflächen (GUI)-Agenten, die natürliche Sprache mit realen Geräten verbinden, zunehmend in den Fokus der Forschung. Traditionelle Benchmarks bewerten deren Fähigkeiten meist anhand des Endzustands einer Aufgabe, vernachlässigen jedoch die Zwischenschritte, die für komplexe GUI-Operationen entscheidend sind.
ProBench löst dieses Problem, indem es über 200 anspruchsvolle mobile GUI-Aufgaben umfasst und neben dem klassischen „State‑Based“ Test auch einen „Process‑Based“ Test einführt. Ein spezieller Process Provider liefert automatisch genaue Prozessinformationen, sodass die Leistung der Agenten Schritt für Schritt nachvollzogen und bewertet werden kann.
Die Analyse moderner GUI‑Agenten zeigt deutlich, dass sowohl große Allzweck‑Modelle als auch kleinere, auf GUI ausgelegte Systeme in realen Szenarien erhebliche Schwächen aufweisen. Durch die detaillierte Fehleranalyse werden wiederkehrende Probleme identifiziert und konkrete Verbesserungsansätze für zukünftige Entwicklungen aufgezeigt.