Forschung arXiv – cs.AI

Neues MLLM-Framework ermöglicht autonome GUI-Navigation ohne hohe Datenkosten

Durch die jüngsten Fortschritte multimodaler Large Language Models (MLLMs) haben autonome Agenten für grafische Benutzeroberflächen (GUI) erheblich an Leistungsfähigkeit gewonnen. In der Praxis stoßen diese Agenten jedo…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Durch die jüngsten Fortschritte multimodaler Large Language Models (MLLMs) haben autonome Agenten für grafische Benutzeroberflächen (GUI) erheblich an Leistungsfähigkeit…
  • In der Praxis stoßen diese Agenten jedoch häufig auf nicht-stationäre Umgebungen, was die Kosten für Datensammlung und Policy‑Optimierung stark erhöht.
  • Um diesem Problem zu begegnen, stellt der neue Ansatz ein MLLM‑zentriertes Framework vor, das aus zwei Kernkomponenten besteht: der Agentic‑Q‑Schätzung und der schrittwe…

Durch die jüngsten Fortschritte multimodaler Large Language Models (MLLMs) haben autonome Agenten für grafische Benutzeroberflächen (GUI) erheblich an Leistungsfähigkeit gewonnen. In der Praxis stoßen diese Agenten jedoch häufig auf nicht-stationäre Umgebungen, was die Kosten für Datensammlung und Policy‑Optimierung stark erhöht.

Um diesem Problem zu begegnen, stellt der neue Ansatz ein MLLM‑zentriertes Framework vor, das aus zwei Kernkomponenten besteht: der Agentic‑Q‑Schätzung und der schrittweisen Policy‑Optimierung. Die Agentic‑Q‑Schätzung optimiert ein Q‑Modell, das schrittweise Werte liefert, um den Beitrag einzelner Aktionen zur Aufgabenerfüllung zu bewerten.

Die schrittweise Policy‑Optimierung nutzt dabei Stichproben aus den von der Policy selbst erzeugten Zustands‑Aktions‑Trajektorien. Durch die Kombination mit dem Agentic‑Q‑Modell wird die Policy mittels Reinforcement Learning aktualisiert. Dabei entstehen keine zusätzlichen Datenkosten, da alle Trajektorien intern generiert werden, und die Policy‑Updates sind von der Umgebung entkoppelt, was stabile und effiziente Optimierungen ermöglicht.

Experimentelle Tests zeigen, dass das Framework dem Modell Ovis2.5‑9B beeindruckende GUI‑Interaktionsfähigkeiten verleiht. Es erzielt herausragende Ergebnisse bei GUI‑Navigation und Grounding‑Benchmarks und übertrifft sogar Konkurrenten mit deutlich größerer Modellgröße.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?
Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.