OKBench: Automatisierte, On‑Demand‑Benchmarks für dynamisches Wissen
Die Bewertung von großen Sprachmodellen (LLMs) im Bereich des wissensbasierten Frage‑Antwortens wird bislang vorwiegend mit statischen Benchmarks wie Wikipedia‑Texten oder Lehrbüchern durchgeführt. Diese Ansätze vernach…