Neues Benchmark-Framework Mind-ParaWorld bewertet Suchagenten in einer Parallelwelt
Die Integration von Web‑Suchtools hat die Leistungsfähigkeit von großen Sprachmodellen (LLMs) enorm erweitert, sodass sie jetzt offene, zeitkritische und seltene Aufgaben lösen können. Doch die Bewertung dieser sogenannten Search Agents ist mit erheblichen Schwierigkeiten verbunden. Erstens sind hochwertige, echte Suchbenchmarks kostenintensiv, während synthetische Daten häufig auf unzuverlässigen Quellen basieren. Zweitens veralten statische Benchmarks rasch, weil sich das Internet ständig verändert und komplexe Suchanfragen im Laufe der Zeit zu einfachen Abrufaufgaben werden. Drittens erschwert die Unklarheit der Quellenattribution die Bewertung, weil die Leistung eines Agenten oft mehr von seinem internen Speicher als von seiner eigentlichen Such- und Denkfähigkeit abhängt. Schließlich führt die Abhängigkeit von einzelnen kommerziellen Suchmaschinen zu Variabilität, die die Reproduzierbarkeit beeinträchtigt.