CRAFT-GUI: Curriculum‑basierte Agenten verbessern GUI‑Aufgaben um 10 %
Mit dem Aufkommen autonomer Agenten, die zunehmend in der Lage sind, grafische Benutzeroberflächen (GUIs) zu verstehen und zu bedienen, entsteht eine neue Ära der automatisierten Aufgabenerfüllung. Reinforcement Learning (RL) hat sich dabei als effektives Mittel erwiesen, die Leistung dieser Agenten in dynamischen, interaktiven GUI‑Umgebungen zu steigern.
Aktuelle Ansätze stoßen jedoch an zwei wesentliche Grenzen: Erstens behandeln sie die gesamte Trainingsmenge als homogen, wodurch die große Variation an Schwierigkeitsgraden verschiedener GUI‑Aufgaben ignoriert wird. Zweitens fassen die meisten Methoden die spezifischen Nuancen einzelner Aufgaben zu einer einzigen, groben Belohnung zusammen, was zu ineffizienten Policy‑Updates führt.
Um diese Hindernisse zu überwinden, präsentiert die neue Studie CRAFT‑GUI, ein Curriculum‑Learning‑Framework, das auf Group Relative Policy Optimization (GRPO) basiert. Das System berücksichtigt explizit die unterschiedliche Schwierigkeit von Trajektorien und nutzt eine Belohnungsfunktion, die regelbasierte Signale mit modellgestützten Bewertungen kombiniert. Dadurch erhält der Agent ein reichhaltigeres und differenzierteres Feedback während des Trainings.
Experimentelle Ergebnisse zeigen, dass CRAFT‑GUI die bisherigen Spitzenleistungen deutlich übertrifft: Auf den öffentlichen Benchmarks von Android Control steigt die Performance um 5,6 % und auf den internen Online‑Benchmarks um 10,3 %. Diese Zahlen belegen eindrucksvoll, dass die Kombination aus Reinforcement Learning und Curriculum‑Learning die Interaktion von Agenten mit GUIs nachhaltig verbessert.