Forschung arXiv – cs.AI

GUI-Owl-1.5: Neuer Multi‑Plattform-GUI-Agent mit bahnbrechenden Leistungen

Die neueste Version des nativen GUI-Agenten GUI‑Owl‑1.5 wurde auf arXiv veröffentlicht und setzt neue Maßstäbe für die Automatisierung von Benutzeroberflächen. Das Modell ist in fünf Größen erhältlich – 2B, 4B, 8B, 32B…

≈2 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Die neueste Version des nativen GUI-Agenten GUI‑Owl‑1.5 wurde auf arXiv veröffentlicht und setzt neue Maßstäbe für die Automatisierung von Benutzeroberflächen.
  • Das Modell ist in fünf Größen erhältlich – 2B, 4B, 8B, 32B und 235B – und unterstützt Desktop, Mobile, Browser und weitere Plattformen, sodass Cloud‑Edge‑Kollaboration u…
  • Auf mehr als 20 offenen GUI-Benchmarks erzielt GUI‑Owl‑1.5 beeindruckende Ergebnisse: 56,5 Punkte bei OSWorld, 71,6 bei AndroidWorld und 48,4 bei WebArena für Automatisi…

Die neueste Version des nativen GUI-Agenten GUI‑Owl‑1.5 wurde auf arXiv veröffentlicht und setzt neue Maßstäbe für die Automatisierung von Benutzeroberflächen. Das Modell ist in fünf Größen erhältlich – 2B, 4B, 8B, 32B und 235B – und unterstützt Desktop, Mobile, Browser und weitere Plattformen, sodass Cloud‑Edge‑Kollaboration und Echtzeit‑Interaktion nahtlos möglich sind.

Auf mehr als 20 offenen GUI-Benchmarks erzielt GUI‑Owl‑1.5 beeindruckende Ergebnisse: 56,5 Punkte bei OSWorld, 71,6 bei AndroidWorld und 48,4 bei WebArena für Automatisierungsaufgaben; 80,3 bei ScreenSpotPro für Grounding; 47,6 bei OSWorld‑MCP und 46,8 bei MobileWorld für Tool‑Calling; sowie 75,5 bei GUI‑Knowledge Bench für Speicher‑ und Wissensaufgaben. Diese Zahlen übertreffen die bisherigen Spitzenleistungen in allen Kategorien.

Die Erfolge von GUI‑Owl‑1.5 beruhen auf drei Kerninnovationen. Erstens nutzt der Hybrid Data Flywheel eine Kombination aus simulierten und cloud‑basierten Sandbox‑Umgebungen, um die Datensammlung effizienter und qualitativ hochwertiger zu gestalten. Zweitens wird die Denk‑ und Synthesepipeline einheitlich verbessert, um die Fähigkeiten des Agenten in Tool‑Nutzung, Speicher und Multi‑Agent‑Anpassung zu stärken. Drittens führt der neue Multi‑Platform Environment RL‑Algorithmus MRPO ein, der Konflikte zwischen Plattformen löst und die Trainingseffizienz bei langanhaltenden Aufgaben steigert.

Alle Modelle von GUI‑Owl‑1.5 sind Open‑Source und können frei genutzt werden. Zusätzlich steht ein Online‑Cloud‑Sandbox‑Demo zur Verfügung, die es Forschern und Entwicklern ermöglicht, die Fähigkeiten des Agenten in Echtzeit zu testen und weiter zu verbessern.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?
Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.