MPR-GUI: Benchmark und Optimierung mehrsprachiger GUI-Wahrnehmung
Mit der rasanten Weiterentwicklung von Rechenressourcen zeigen Large Vision‑Language Models (LVLMs) beeindruckende Leistungen in Wahrnehmung und Logik bei grafischen Benutzeroberflächen (GUI). Doch während sie in englischsprachigen Szenarien stark abschneiden, bleibt ihre Mehrsprachigkeit weitgehend unerforscht – ein Hindernis für weltweite Anwendungen.