TimeWarp: Web-Agenten gegen veränderte Web‑Designs testen

Die jüngste Veröffentlichung von TimeWarp stellt die Leistungsfähigkeit moderner Web‑Agenten auf die Probe, indem sie die sich ständig wandelnde Internetlandschaft simuliert. Durch containerisierte Umgebungen, die sich in UI, Design und Layout unterscheiden, wird ein realistisches Szenario geschaffen, in dem Agenten ihre Fähigkeiten unter Beweis stellen müssen.

TimeWarp umfasst drei unterschiedliche Web‑Umgebungen, die jeweils sechs UI‑Versionen aus verschiedenen Internet‑Epochen enthalten. Diese Versionen reichen von klassischen, textbasierten Seiten bis hin zu modernen, responsiven Layouts. Zu jedem Szenario wurden komplexe, realistische Aufgaben definiert, die ein tiefes Verständnis für Web‑Navigation erfordern.

Die Experimente zeigen deutlich, dass aktuelle Agenten stark von Änderungen im Web‑Design abhängig sind. Besonders das Verhalten‑Cloning (BC) auf Trajektorien einer einzigen Version erwies sich als ineffizient, da die Agenten kaum übertragbare Strategien erlernten.

Um diesem Problem zu begegnen, wurde TimeTraj entwickelt – ein einfacher, aber wirkungsvoller Algorithmus, der Plan‑Distillation nutzt, um Trajektorien über mehrere Versionen hinweg zu sammeln. Durch das Training mit Rollouts eines Lehrers in einer BC‑Variante erzielte TimeTraj erhebliche Verbesserungen: Für das Modell Qwen‑3 4B stieg die Erfolgsrate von 20,4 % auf 37,7 %, während Llama‑3.1 8B von 0 % auf 27,0 % aufstieg.

TimeWarp und TimeTraj eröffnen Forschern ein neues Paradigma, bei dem nicht nur einzelne Trajektorien, sondern ganze Pläne gesammelt werden. Damit wird die Robustheit von Web‑Agenten gegenüber Design‑Veränderungen deutlich erhöht und ein wichtiger Schritt in Richtung allgemeinerer, anpassungsfähiger KI‑Systeme im Web‑Umfeld gesetzt.

Ähnliche Artikel

🍪 Cookie-Einstellungen