CI4A: Semantische Komponenten-Interfaces für Agenten zur Web‑Automatisierung

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neues Forschungspapier präsentiert CI4A, ein Konzept, das die Interaktion von KI-Agenten mit Web‑UIs revolutioniert. Während große Sprachmodelle bereits beeindruckende Fähigkeiten im hochrangigen semantischen Planen zeigen, stoßen sie bei der präzisen Steuerung einzelner Web‑Komponenten an ihre Grenzen.

CI4A löst dieses Problem, indem es die komplexen Interaktionslogiken von UI‑Elementen in einheitliche, semantische Tool‑Primitives kapselt. Diese abstrahierten Schnittstellen ermöglichen es Agenten, direkt mit den Kernfunktionen von Komponenten zu arbeiten, ohne sich an menschlich gestaltete Oberflächen anpassen zu müssen.

Die Autoren haben CI4A in Ant Design implementiert – einem industriellen Front‑End‑Framework – und dabei 23 gängige UI‑Komponenten abgedeckt. Durch diese Integration wird die Interaktion zwischen Agenten und Web‑Seiten deutlich vereinfachter und effizienter.

Ein hybrider Agent wurde entwickelt, dessen Aktionsraum sich dynamisch an den aktuellen Seitenstatus anpasst. Dadurch kann der Agent flexibel die verfügbaren CI4A‑Tools aufrufen und gezielt ausführen.

Zur Evaluierung wurde der WebArena‑Benchmark neu strukturiert und auf die CI4A‑integrierte Ant Design‑Umgebung angepasst. Die experimentellen Ergebnisse zeigen, dass der CI4A‑basierte Agent die bisherigen State‑of‑the‑Art‑Methoden deutlich übertrifft, mit einer neuen Erfolgsrate von 86,3 % und erheblichen Verbesserungen in der Ausführungs­effizienz.

Ähnliche Artikel