Neues Benchmark 'Needle in the Web' testet LLMs bei unscharfen Web-Suchen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Large Language Models (LLMs) haben sich von einfachen Chatbots zu komplexen Agenten entwickelt, die in der Lage sind, reale Aufgaben zu automatisieren. Dabei spielt das Durchsuchen und logische Analysieren von Live-Webinhalten eine zentrale Rolle, um die Fähigkeiten von Retrieval und kognitiver Verarbeitung zu prüfen.

Aktuelle Benchmarks wie BrowseComp und xBench-DeepSearch konzentrieren sich auf mehrstufige, komplexe Suchaufgaben, bei denen mehrere Fakten zusammengeführt werden müssen. Sie vernachlässigen jedoch die sogenannte Fuzzy Exploratory Search, bei der Nutzer vage und mehrdeutige Anfragen stellen und die relevanteste Webseite anstelle einer einzelnen Faktenantwort suchen.

Um diese Lücke zu schließen, wurde das Benchmark „Needle in the Web“ entwickelt. Es bewertet moderne Suchagenten und LLM-basierte Systeme darauf, wie gut sie unscharfe, explorative Anfragen in realen Webinhalten beantworten können. Das Benchmark umfasst 663 Fragen aus sieben unterschiedlichen Fachbereichen.

Zur Sicherstellung hoher Anfragengüte und eindeutiger Antworten nutzt das Projekt eine flexible Methodik, die Anfragen mit kontrollierbarem Schwierigkeitsgrad erzeugt, basierend auf Fakten aus Webinhalten. Auf dieser Grundlage wurden drei führende LLMs und drei agentenbasierte Suchsysteme getestet.

Die Ergebnisse zeigen, dass die meisten Modelle Schwierigkeiten haben: Viele erreichen weniger als 35 % Genauigkeit, und keines der getesteten Systeme überzeugt konsequent über alle Fachbereiche und Schwierigkeitsgrade hinweg. Diese Befunde unterstreichen, dass „Needle in the Web“ eine erhebliche Herausforderung für aktuelle Suchsysteme darstellt und das offene Problem der effektiven unscharfen Retrieval unter semantischer Mehrdeutigkeit hervorhebt.

Ähnliche Artikel