Neues Framework nutzt Neugier, um mobile Agenten mit Wissen zu versorgen
Mobile Agenten haben in den letzten Jahren Fortschritte bei der Automatisierung von Smartphones erzielt, doch ihre Leistung in komplexen Anwendungen bleibt durch fehlendes Wissen und begrenzte Generalisierung eingeschränkt. Ein neues Konzept namens „Curiosity Driven Knowledge Retrieval“ (CDKR) adressiert dieses Problem, indem es Unsicherheit während der Ausführung als Neugierwert quantifiziert. Sobald dieser Wert einen Schwellenwert überschreitet, greift das System auf externe Quellen wie Dokumentationen, Code‑Repositorien und historische Pfade zu.
Die gewonnenen Informationen werden in strukturierte AppCards organisiert, die funktionale Semantik, Parameterkonventionen, Schnittstellenabbildungen und Interaktionsmuster kapseln. Während der Ausführung integriert der Agent gezielt relevante AppCards in seinen Denkprozess, wodurch Wissenslücken geschlossen und die Zuverlässigkeit der Planung verbessert werden. Auf dem AndroidWorld‑Benchmark erzielte das CDKR-Framework durchschnittlich einen Anstieg von sechs Prozentpunkten und erreichte mit GPT‑5 eine neue Spitzenleistung von 88,8 %.
Besonders bei mehrstufigen und übergreifenden Aufgaben zeigen AppCards signifikante Vorteile, während die Verbesserungen je nach zugrundeliegendem Modell variieren. Fallstudien belegen, dass AppCards die Mehrdeutigkeit reduzieren, die Erkundungszeit verkürzen und stabile Ausführungspfade unterstützen. Alle Task‑Trajektorien sind öffentlich zugänglich unter https://lisalsj.github.io/Droidrun-appcard/.