Forschung arXiv – cs.AI

WebSight: Vision-basierter Web-Agent setzt neue Maßstäbe

Mit WebSight wird die Interaktion mit dem Web neu definiert: Der Agent arbeitet ausschließlich über visuelle Wahrnehmung und benötigt keine HTML- oder DOM-Informationen. Im Mittelpunkt steht das Modell WebSight‑7B, ein…

≈1 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Mit WebSight wird die Interaktion mit dem Web neu definiert: Der Agent arbeitet ausschließlich über visuelle Wahrnehmung und benötigt keine HTML- oder DOM-Informationen.
  • Im Mittelpunkt steht das Modell WebSight‑7B, ein feinabgestimmtes Vision‑Language‑Modell, das mit LoRA auf einem webbasierten Teil des Wave‑UI‑25K‑Datensatzes trainiert…
  • Es ist speziell auf die Interaktion mit UI‑Elementen ausgelegt.

Mit WebSight wird die Interaktion mit dem Web neu definiert: Der Agent arbeitet ausschließlich über visuelle Wahrnehmung und benötigt keine HTML- oder DOM-Informationen.

Im Mittelpunkt steht das Modell WebSight‑7B, ein feinabgestimmtes Vision‑Language‑Modell, das mit LoRA auf einem webbasierten Teil des Wave‑UI‑25K‑Datensatzes trainiert wurde. Es ist speziell auf die Interaktion mit UI‑Elementen ausgelegt.

WebSight nutzt eine modulare Multi‑Agent‑Architektur, die aus Planungs-, Denk-, Vision‑Action‑ und Verifizierungsagenten besteht. Diese werden über einen episodischen Speichermechanismus koordiniert, um Aktionen zu planen, auszuführen und zu überprüfen.

Die Ergebnisse sprechen für sich: WebSight‑7B erzielt mit 58,84 % Top‑1‑Genauigkeit im Showdown Clicks‑Benchmark die beste Leistung unter vergleichbaren Modellen und bleibt dabei schneller. Der komplette Agent erreicht 68,0 % Erfolgsrate im WebVoyager‑Benchmark und übertrifft dabei Systeme von OpenAI (61,0 %) und HCompany (67,0 %). Bei Aufgaben wird WebSight korrekt beantwortet, 97,14 % der Zeit.

WebSight und WebSight‑7B setzen damit neue Maßstäbe für interpretierbare, robuste und effiziente visuelle Web‑Navigation.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

WebSight
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Vision‑Language‑Modell
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Multi‑Agent‑Architektur
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen