Forschung arXiv – cs.AI

LocalSearchBench: Benchmark für agentische Suche in lokalen Lebensservices

In einer Welt, in der große Sprachmodelle immer komplexere Aufgaben lösen können, fehlt bislang ein echter Test für die Suche in alltäglichen lokalen Dienstleistungen. Mit dem neuen Benchmark LocalSearchBench wird genau…

≈1 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • In einer Welt, in der große Sprachmodelle immer komplexere Aufgaben lösen können, fehlt bislang ein echter Test für die Suche in alltäglichen lokalen Dienstleistungen.
  • Mit dem neuen Benchmark LocalSearchBench wird genau das gefüllt: über 150 000 hochwertige Einträge aus verschiedenen Städten und Branchen bilden die Basis für 300 echte…
  • Der Fokus liegt auf realen, mehrdeutigen Suchanfragen, die häufig mehrere Schritte erfordern – ein Szenario, das bisher in der Forschung kaum berücksichtigt wurde.

In einer Welt, in der große Sprachmodelle immer komplexere Aufgaben lösen können, fehlt bislang ein echter Test für die Suche in alltäglichen lokalen Dienstleistungen. Mit dem neuen Benchmark LocalSearchBench wird genau das gefüllt: über 150 000 hochwertige Einträge aus verschiedenen Städten und Branchen bilden die Basis für 300 echte Mehrstufen‑Frage‑Antwort‑Aufgaben, die Agenten dazu herausfordern, mehrdeutige Anfragen zu verstehen und Informationen über mehrere Händler und Produkte hinweg zu sammeln.

Der Fokus liegt auf realen, mehrdeutigen Suchanfragen, die häufig mehrere Schritte erfordern – ein Szenario, das bisher in der Forschung kaum berücksichtigt wurde. Um die Interaktion mit solchen Aufgaben zu erleichtern, wurde LocalPlayground entwickelt: eine einheitliche Umgebung, die verschiedene Tools integriert und Agenten die Möglichkeit gibt, in einer praxisnahen Umgebung zu üben.

Die ersten Experimente zeigen, dass selbst die fortschrittlichsten großen Sprachmodelle noch weit von einer zufriedenstellenden Leistung entfernt sind. Das bisher beste Modell, DeepSeek‑V3.1, erreicht lediglich 34,34 % korrekte Antworten. Zudem weisen die meisten Modelle noch Defizite in Vollständigkeit (durchschnittlich 77,33 %) und Glaubwürdigkeit (durchschnittlich 61,99 %) auf. Diese Ergebnisse unterstreichen die Notwendigkeit spezialisierter Benchmarks und domänenspezifischer Trainingsansätze für Agenten in lokalen Lebensdienstleistungen.

Der komplette Code, das Benchmark‑Set und die Leaderboard‑Daten stehen unter localsearchbench.github.io zur Verfügung und laden die Community ein, die Grenzen der agentischen Suche weiter zu verschieben.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

LocalSearchBench
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
LocalPlayground
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Mehrstufige Suchanfragen
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen