Mobile-Agent-v3: Neuer Maßstab für GUI‑Automatisierung

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

In einer wegweisenden Veröffentlichung aus dem arXiv‑Repository präsentiert ein internationales Forschungsteam das Modell GUI‑Owl, das als Fundament für die nächste Generation von GUI‑Agenten dient. Das System erzielt mit 66,4 Punkten auf dem AndroidWorld‑Benchmark und 29,4 Punkten auf OSWorld die bislang besten Ergebnisse unter Open‑Source‑End‑to‑End‑Modellen.

Auf dieser Basis wurde Mobile‑Agent‑v3 entwickelt, ein allzweckfähiger GUI‑Agent, der die Leistungen weiter steigert. Mit 73,3 Punkten auf AndroidWorld und 37,7 Punkten auf OSWorld erreicht er einen neuen, offenen Standard für GUI‑Automatisierung. Die Zahlen zeigen, dass die Kombination aus robustem Training und innovativer Architektur die Grenzen bisheriger Ansätze sprengt.

Die Erfolge von GUI‑Owl beruhen auf drei Kerninnovationen. Erstens nutzt das Modell eine cloudbasierte, virtuelle Umgebung, die Android, Ubuntu, macOS und Windows abdeckt. Durch einen Self‑Evolving GUI‑Trajectory‑Production‑Framework werden Interaktionsdaten automatisch generiert, validiert und iterativ verbessert – ein selbstoptimierender Lernzyklus, der die Notwendigkeit manueller Annotationen drastisch reduziert.

Zweitens integriert GUI‑Owl UI‑Grounding, Planung, Aktionssemantik und logische Muster in einem einheitlichen System. Dadurch kann der Agent eigenständig Entscheidungen treffen und gleichzeitig als modulare Komponente in Multi‑Agenten‑Setups eingesetzt werden.

Drittens bietet das Modell ein skalierbares, asynchrones Reinforcement‑Learning‑Framework. Mit der neuen Trajectory‑Aware Relative Policy Optimization (TRPO) wird Online‑RL effizient umgesetzt, was bereits zu einer Leistungssteigerung von 34,9 Punkten geführt hat. Diese Kombination aus Infrastruktur, Fähigkeiten und Lernmethodik macht Mobile‑Agent‑v3 zu einem Meilenstein in der Open‑Source‑KI‑Forschung.

Ähnliche Artikel