SparkUI-Parser: Verbesserte GUI-Erkennung mit robuster Lokalisierung und Parsing
Multimodale große Sprachmodelle (MLLMs) haben die Erkennung von grafischen Benutzeroberflächen (GUI) stark vorangetrieben, doch bisherige Ansätze stoßen an Grenzen: Sie arbeiten mit diskreten Koordinaten, was die Genaui…