Auto-Explorer: Automatisierte Datensammlung für GUI-Agenten
Neueste Fortschritte bei GUI-Agenten haben deren Fähigkeit, natürliche Sprachbefehle zur Steuerung von Softwareoberflächen zu verstehen, stark erweitert. Dennoch bleibt die Beschaffung von GUI-Daten ein zentrales Problem. Traditionelle Ansätze bauen auf automatisierten Agenten, die URLs aus dem Common Crawl durchsuchen und HTML‑Seiten nutzen, um Screenshots sowie zugehörige Annotationen – etwa Namen und Begrenzungsrahmen von UI‑Elementen – zu erfassen. Diese Methode funktioniert jedoch nicht zuverlässig für Desktop‑Software oder neu gestartete Webseiten, die nicht im Common Crawl enthalten sind.