LocalSearchBench: Benchmark für agentische Suche in lokalen Lebensservices
In einer Welt, in der große Sprachmodelle immer komplexere Aufgaben lösen können, fehlt bislang ein echter Test für die Suche in alltäglichen lokalen Dienstleistungen. Mit dem neuen Benchmark LocalSearchBench wird genau das gefüllt: über 150 000 hochwertige Einträge aus verschiedenen Städten und Branchen bilden die Basis für 300 echte Mehrstufen‑Frage‑Antwort‑Aufgaben, die Agenten dazu herausfordern, mehrdeutige Anfragen zu verstehen und Informationen über mehrere Händler und Produkte hinweg zu sammeln.
Der Fokus liegt auf realen, mehrdeutigen Suchanfragen, die häufig mehrere Schritte erfordern – ein Szenario, das bisher in der Forschung kaum berücksichtigt wurde. Um die Interaktion mit solchen Aufgaben zu erleichtern, wurde LocalPlayground entwickelt: eine einheitliche Umgebung, die verschiedene Tools integriert und Agenten die Möglichkeit gibt, in einer praxisnahen Umgebung zu üben.
Die ersten Experimente zeigen, dass selbst die fortschrittlichsten großen Sprachmodelle noch weit von einer zufriedenstellenden Leistung entfernt sind. Das bisher beste Modell, DeepSeek‑V3.1, erreicht lediglich 34,34 % korrekte Antworten. Zudem weisen die meisten Modelle noch Defizite in Vollständigkeit (durchschnittlich 77,33 %) und Glaubwürdigkeit (durchschnittlich 61,99 %) auf. Diese Ergebnisse unterstreichen die Notwendigkeit spezialisierter Benchmarks und domänenspezifischer Trainingsansätze für Agenten in lokalen Lebensdienstleistungen.
Der komplette Code, das Benchmark‑Set und die Leaderboard‑Daten stehen unter localsearchbench.github.io zur Verfügung und laden die Community ein, die Grenzen der agentischen Suche weiter zu verschieben.