V2P: Von Hintergrundunterdrückung zu Center-Peaking für GUI-Positionierung

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die präzise Lokalisierung von GUI‑Elementen ist entscheidend für die Entwicklung intelligenter GUI‑Agenten. Traditionelle Ansätze setzen meist auf Bounding‑Box‑ oder Center‑Point‑Regression und vernachlässigen dabei die räumliche Unsicherheit sowie die visuell‑semantische Hierarchie der Oberfläche. Der neue Ansatz Valley‑to‑Peak (V2P) löst diese Probleme mit zwei innovativen Mechanismen.

Erstens reduziert V2P die Ablenkung durch Hintergrundbereiche, indem es eine Suppressions‑Attention einführt, die das Modell gezielt von irrelevanten Regionen ablenkt. Dadurch bleibt die Aufmerksamkeit auf dem gewünschten UI‑Element fokussiert. Zweitens adressiert V2P die Unschärfe zwischen Zentrum und Rand eines Elements, indem es eine Fitts‑Law‑inspiriert gewichtete 2‑D‑Gauss‑Heatmap verwendet. Die Gewichtung nimmt dabei vom Zentrum zum Rand ab, wobei die Varianz der Gauss‑Funktion proportional zur Größe des Ziels ist.

Durch diese Kombination isoliert V2P das Zielgebiet effektiv und lehrt das Modell, sich auf den wichtigsten Punkt des UI‑Elements zu konzentrieren. Auf den Benchmarks ScreenSpot‑v2 und ScreenSpot‑Pro erzielt das V2P‑Modell beeindruckende Ergebnisse von 92,3 % bzw. 50,5 %. Ablationsstudien bestätigen die Wirksamkeit beider Komponenten und zeigen die hohe Generalisierbarkeit von V2P für präzise GUI‑Grounding‑Aufgaben.