GAIA: Daten‑Flywheel für GUI‑Agenten – iterative Kritik verbessert Testzeit
Große Vision‑Language‑Modelle haben die Fähigkeiten von GUI‑Agenten beim Verstehen von Textanweisungen, der Analyse von Bildschirminhalten und der Ausführung von Aufgaben stark erweitert. Dennoch bleibt ein kritisches Problem bestehen: einmalige Fehlaktionen können zu katastrophalen Abweichungen führen, weil Agenten ihre Handlungen nicht rückgängig machen können. Das neue System GAIA (GUI Action Critic’s Data Flywheel) löst dieses Problem, indem es Agenten iterative Kritikfähigkeiten verleiht, die die Test‑Time‑Scaling (TTS) ihrer Leistung deutlich verbessern.
GAIA nutzt zunächst ein Intuitives Kritikmodell (ICM), das mit positiven und negativen Aktionsbeispielen eines Basisagenten trainiert wird. Dieses Modell bewertet die unmittelbare Richtigkeit der geplanten Aktionen und wählt diejenigen aus, die eine höhere Erfolgswahrscheinlichkeit haben. Anschließend leitet der erste Kritiker die Agentenaktionen an, um verfeinerte positive und negative Stichproben zu sammeln, wodurch ein selbstverbessernder Zyklus entsteht.
Die gesammelten Daten werden dann verwendet, um einen zweiten Kritiker mit verbesserter Unterscheidungsfähigkeit zu trainieren. Durch diesen iterativen Prozess wird die Fähigkeit des Kritikers, fehlerhafte Handlungen frühzeitig zu erkennen, kontinuierlich gesteigert.
Experimentelle Tests auf verschiedenen Datensätzen zeigen, dass das ICM die Testzeit‑Performance sowohl bei geschlossenen als auch bei offenen Modellen signifikant erhöht. Die Leistung verbessert sich weiter, je mehr Daten im Flywheel recycelt werden. Der Code und die Datensätze werden öffentlich zugänglich gemacht, sodass die Forschungsgemeinschaft von GAIA profitieren kann.