Trifuse: Mehr Genauigkeit bei GUI‑Übersetzung durch multimodale Fusion
Die neue Methode Trifuse verbessert die Zuordnung von Sprachbefehlen zu grafischen Benutzeroberflächen (GUI) erheblich, ohne dass dafür riesige Datensätze benötigt werden. Anstatt herkömmliche multimodale große Sprachmodelle (MLLMs) mit umfangreichen GUI‑Datensätzen zu feintunen, nutzt Trifuse die bereits vorhandenen Aufmerksamkeitsmechanismen dieser Modelle und ergänzt sie um gezielte räumliche Anker.