GUI-360: Riesiges Datenset für Computer‑Using Agents – neue Benchmark
In einer bedeutenden Veröffentlichung präsentiert das Forschungsteam das Datenset GUI‑360$^\circ$, das über 1,2 Millionen ausgeführte Aktionsschritte in realen Windows‑Office‑Anwendungen enthält. Jede Trajektorie wird mit hochauflösenden Screenshots, Zugänglichkeits‑Metadaten, klar definierten Zielen und detaillierten Zwischenschritten dokumentiert – sowohl erfolgreiche als auch fehlgeschlagene Aktionen.
Der Aufbau des Datensatzes erfolgt über einen weitgehend automatisierten, LLM‑gestützten Pipeline‑Ansatz. Dabei werden Aufgaben aus dem Internet abgerufen, Umgebungs‑Templates erstellt, Aufgaben instanziiert, in Batches ausgeführt und die Qualität der Ergebnisse durch ein Sprachmodell geprüft. Dieser Prozess ermöglicht eine skalierbare Sammlung von multimodalen Trajektorien ohne manuellen Aufwand.
GUI‑360$^\circ$ deckt drei zentrale Aufgaben ab: GUI‑Grounding, Screen‑Parsing und Action‑Prediction. Zusätzlich wird ein hybrider Aktionsraum angeboten, der sowohl GUI‑ als auch API‑Befehle umfasst und damit moderne Agenten‑Architekturen realistisch simuliert.
Die Benchmark‑Tests zeigen, dass aktuelle Vision‑Language‑Modelle bei Grounding und Aktionsvorhersage noch erhebliche Defizite aufweisen. Durch überwachte Feinabstimmung und Reinforcement‑Learning lassen sich deutliche Verbesserungen erzielen, jedoch bleibt der Abstand zu menschlicher Zuverlässigkeit bestehen.
Das komplette Datenset sowie der zugehörige Code werden öffentlich freigegeben, um reproduzierbare Forschung zu fördern und die Entwicklung leistungsfähiger Computer‑Using‑Agents voranzutreiben.