Forschung
SparkUI-Parser: Verbesserte GUI-Erkennung mit robuster Lokalisierung und Parsing
Multimodale große Sprachmodelle (MLLMs) haben die Erkennung von grafischen Benutzeroberflächen (GUI) stark vorangetrieben, doch bisherige A…
arXiv – cs.AI