RIKER: Skalierbare, zuverlässige Bewertung von KI‑Wissenssystemen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die Bewertung von KI‑Wissenssystemen wie Sprachmodelle, Retrieval‑Augmented Generation (RAG) und Wissensgraphen steht vor großen Herausforderungen. Traditionelle Benchmarks sind anfällig für Datenkontamination, KI‑basierte Gutachter zeigen systematische Verzerrungen und die Extraktion von Ground‑Truth erfordert kostenintensive menschliche Annotationen.

Mit RIKER (Retrieval Intelligence and Knowledge Extraction Rating) wird ein neues Paradigma vorgestellt: statt Ground‑Truth aus Dokumenten zu extrahieren, werden Dokumente aus bekanntem Ground‑Truth generiert. Diese „Paradigm‑Inversion“ ermöglicht deterministische Bewertung, hohe Skalierbarkeit ohne menschliche Annotationen und schützt vor Kontamination, weil die Korpora regenerierbar sind.

In einer umfangreichen Evaluation von 33 Modellen über 21 Milliarden Tokens zeigte RIKER, dass die behaupteten Kontextlängen häufig die tatsächlich nutzbare Kapazität überschreiten. Die Leistung verschlechtert sich deutlich bei mehr als 32 K Tokens. Die Aggregation über mehrere Dokumente ist deutlich schwieriger als die Extraktion aus einzelnen Dokumenten. Zudem unterscheiden sich die Fähigkeiten zur Faktensuche und zur Vermeidung von Halluzinationen: Modelle, die gut darin sind, vorhandene Fakten zu finden, können dennoch Fakten erfinden, die nicht existieren.

RIKER liefert nicht nur ein spezifisches Benchmark‑Set, sondern auch eine domänenunabhängige Methode zur Erstellung skalierbarer, kontaminationsresistenter Evaluierungen, sofern synthetische Dokumente aus strukturiertem Ground‑Truth erzeugt werden können.

Ähnliche Artikel