OmegaUse: Neuer GUI-Agent für autonome Aufgaben auf PC und Handy

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neuer Ansatz namens OmegaUse verspricht, die Interaktion zwischen Mensch und Computer grundlegend zu verändern. Der Agent ist darauf ausgelegt, Aufgaben sowohl auf mobilen Geräten als auch auf Desktop‑Systemen selbstständig auszuführen und damit die Produktivität in vielen Alltagsszenarien zu steigern.

Die Entwickler von OmegaUse haben zwei entscheidende Bausteine identifiziert: erstens hochwertige Trainingsdaten und zweitens effektive Lernmethoden. Für die Datenerstellung nutzen sie sorgfältig kuratierte Open‑Source‑Sammlungen und ergänzen diese durch ein automatisiertes Synthese‑Framework. Dieses kombiniert explorative, selbstständige Erkundung mit einer top‑down‑basierten Taxonomie‑Leitung, um realistische, synthetische GUI‑Daten zu generieren.

Im Trainingsprozess setzt OmegaUse auf eine zweistufige Strategie. Zunächst erfolgt ein Supervised Fine‑Tuning (SFT), das die grundlegende Interaktionssyntax festlegt. Anschließend wird mit Group Relative Policy Optimization (GRPO) die räumliche Orientierung und die sequentielle Planung verbessert. Der Agent basiert auf einer Mixture‑of‑Experts (MoE) Architektur, die eine effiziente Rechenleistung mit einer hohen kognitiven Flexibilität verbindet.

Zur Bewertung der plattformübergreifenden Fähigkeiten wurde die Benchmark‑Suite OS‑Nav entwickelt. Sie umfasst ChiM‑Nav, das chinesische Android‑Umgebungen abbildet, sowie Ubu‑Nav, das typische Desktop‑Interaktionen unter Ubuntu simuliert. Erste Experimente zeigen, dass OmegaUse in beiden Szenarien signifikante Fortschritte erzielt und damit einen wichtigen Schritt in Richtung autonomer GUI‑Agenten darstellt.

Ähnliche Artikel