ProBench: Neuer Benchmark für GUI-Agenten mit präziser Prozessinformation
Mit der tiefen Verknüpfung von künstlicher Intelligenz und interaktiver Technologie rücken grafische Benutzeroberflächen (GUI)-Agenten, die natürliche Sprache mit realen Geräten verbinden, zunehmend in den Fokus der Forschung. Traditionelle Benchmarks bewerten deren Fähigkeiten meist anhand des Endzustands einer Aufgabe, vernachlässigen jedoch die Zwischenschritte, die für komplexe GUI-Operationen entscheidend sind.