RIKER: Skalierbare, zuverlässige Bewertung von KI‑Wissenssystemen
Die Bewertung von KI‑Wissenssystemen wie Sprachmodelle, Retrieval‑Augmented Generation (RAG) und Wissensgraphen steht vor großen Herausforderungen. Traditionelle Benchmarks sind anfällig für Datenkontamination, KI‑basie…