Trifuse: Mehr Genauigkeit bei GUI‑Übersetzung durch multimodale Fusion
Die neue Methode Trifuse verbessert die Zuordnung von Sprachbefehlen zu grafischen Benutzeroberflächen (GUI) erheblich, ohne dass dafür riesige Datensätze benötigt werden. Anstatt herkömmliche multimodale große Sprachmodelle (MLLMs) mit umfangreichen GUI‑Datensätzen zu feintunen, nutzt Trifuse die bereits vorhandenen Aufmerksamkeitsmechanismen dieser Modelle und ergänzt sie um gezielte räumliche Anker.
Trifuse kombiniert drei Informationsquellen: die Aufmerksamkeitspeaks des Modells, Textinformationen aus optischer Zeichenerkennung (OCR) und semantische Beschreibungen von Symbolen (Icon‑Captions). Durch die sogenannte Consensus‑SinglePeak (CS) Fusion wird sichergestellt, dass alle Modalitäten übereinstimmen, während gleichzeitig die scharfen Lokalisierungspunkte erhalten bleiben. Dieses Vorgehen liefert eine robuste und präzise Zuordnung von Sprachbefehlen zu den korrekten GUI‑Elementen.
In umfangreichen Tests auf vier Standard‑Benchmarks zeigte Trifuse eine starke Leistung, die ohne task‑spezifisches Feintuning auskommt. Die Ergebnisse verdeutlichen, dass die Integration von OCR‑ und Caption‑Hinweisen die Aufmerksamkeitsbasierten Verfahren in allen getesteten Modellen verbessert. Damit bietet Trifuse einen generellen Ansatz, um die Wahrnehmung von GUI‑Agenten zu optimieren und gleichzeitig die Abhängigkeit von teuren annotierten Daten zu reduzieren.