Effiziente Trainingspipeline für multimodale GUI-Agenten
In der Welt der grafischen Benutzeroberflächen (GUI) ist die Fähigkeit, Bildregionen anhand natürlicher Sprachabfragen zu lokalisieren, entscheidend für intelligente, reasoningfähige Agenten. Traditionell stützen sich viele Ansätze auf riesige, oft verrauschte synthetische Datensätze, die viel Rechenleistung erfordern.