OS-Oracle: Neues Framework für plattformübergreifende GUI‑Kritikmodelle

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Mit der zunehmenden Leistungsfähigkeit von VLM‑basierten Computer‑Using Agents (CUAs) wird die präzise Entscheidungsfindung auf Schritt‑Ebene zum entscheidenden Engpass für den Einsatz in realen Arbeitsabläufen. Fehler in langen Sequenzen häufen sich rasch, und irreversible Aktionen können unerwünschte Folgen haben. Deshalb sind Kritikmodelle gefragt, die jede Aktion vor ihrer Ausführung bewerten.

OS‑Oracle adressiert dieses Problem, indem es drei zentrale Innovationen bietet: Erstens ein skalierbarer Daten‑Pipeline, der synthetische GUI‑Kritikdaten für verschiedene Plattformen erzeugt. Zweitens ein zweistufiges Trainingsparadigma, das über supervised fine‑tuning (SFT) hinausgeht und die Konsistenz durch group relative policy optimization (CP‑GRPO) stärkt. Drittens das OS‑Critic Bench, ein umfassendes Benchmark‑Set, das die Leistung von Kritikmodellen auf Mobile, Web und Desktop vergleichbar macht.

Durch diese Ansätze wurde ein hochwertiges Datenset mit 310 000 Kritik‑Samples erstellt. Das daraus trainierte Modell OS‑Oracle‑7B erreicht die Spitzenleistung unter Open‑Source‑VLMs auf dem OS‑Critic Bench und übertrifft sogar proprietäre Modelle im mobilen Bereich. Darüber hinaus verbessert OS‑Oracle‑7B als Pre‑Critic die Performance von nativen GUI‑Agents wie UI‑TARS‑1.5‑7B in den Umgebungen OSWorld und AndroidWorld.

Der komplette Code ist öffentlich zugänglich unter https://github.com/numbmelon/OS-Or.

Ähnliche Artikel