MobileWorldBench: Semantische Weltmodelle für mobile GUI-Agenten
Weltmodelle haben sich als entscheidend für die Leistungssteigerung von eingebetteten Agenten erwiesen. Während frühere Ansätze vor allem auf pixelbasierte Modelle setzen, stoßen diese in grafischen Benutzeroberflächen (GUI) häufig an ihre Grenzen – die Vorhersage komplexer visueller Elemente in zukünftigen Zuständen ist mit hoher Unsicherheit behaftet.
Die neue Arbeit von Jack Lishufan und Kollegen schlägt einen alternativen Weg vor: Statt rohe Pixel zu prognostizieren, beschreiben die Zustandsübergänge in natürlicher Sprache. Diese semantische Darstellung erleichtert es Vision‑Language‑Modellen (VLMs), die Logik und Reihenfolge von GUI‑Aktionen zu erfassen und vorherzusagen.
Zur Bewertung dieser Idee wird MobileWorldBench eingeführt – ein Benchmark, der die Fähigkeit von VLMs testet, als Weltmodelle für mobile GUI‑Agenten zu fungieren. Ergänzend dazu stellt das Team MobileWorld vor, ein umfangreiches Datenset mit 1,4 Millionen Samples, das die Weltmodellierungsfähigkeiten von VLMs deutlich verbessert.
Schließlich wird ein neues Framework vorgestellt, das VLM‑Weltmodelle direkt in den Planungsprozess mobiler Agenten integriert. Die Experimente zeigen, dass semantische Weltmodelle die Erfolgsraten bei Aufgaben signifikant steigern. Der zugehörige Code und das Datenset sind frei verfügbar unter https://github.com/jacklishufan/MobileWorld.