OKBench: Automatisierte, On‑Demand‑Benchmarks für dynamisches Wissen
Die Bewertung von großen Sprachmodellen (LLMs) im Bereich des wissensbasierten Frage‑Antwortens wird bislang vorwiegend mit statischen Benchmarks wie Wikipedia‑Texten oder Lehrbüchern durchgeführt. Diese Ansätze vernachlässigen jedoch die rasche Entwicklung von Wissen in einer sich ständig verändernden Welt und stellen die zentrale Kuratierung vor enorme Herausforderungen.
Um diesen Nachteil zu beheben, stellt das neue Projekt OKBench (Open Knowledge Bench) ein vollständig automatisiertes Framework vor, das hochwertige, dynamische Wissensbenchmarks auf Abruf erzeugt. Der Fokus liegt dabei auf dem Nachrichtenbereich, in dem sich das Wissen täglich aktualisiert. OKBench automatisiert die Beschaffung, Erstellung, Validierung und Verteilung der Benchmarks und ermöglicht damit eine Demokratisierung des Benchmark‑Erstellungsprozesses.
Durch die Reduzierung von Überschneidungen mit den Trainingsdaten lassen sich Retrieval‑Augmented‑Methoden gründlicher evaluieren. In umfangreichen Tests mit einer breiten Palette von Open‑Source‑ und proprietären LLMs unterschiedlicher Größen und Konfigurationen – sowohl mit als auch ohne Retrieval über frisch generiertes Wissen – zeigte OKBench deutlich unterschiedliche Modellverhalten gegenüber neuen Informationen. Die Ergebnisse verdeutlichen, dass Retrieval die Leistungslücke zwischen kleinen und großen Modellen verringert und damit die Notwendigkeit unterstreichen, LLMs anhand von sich wandelnden Wissensbenchmarks zu prüfen.