Was misst dein Benchmark wirklich? Ein Rahmen für robuste KI-Inferenz
Bewertungen generativer Modelle anhand von Benchmark-Daten sind heute allgegenwärtig und prägen sowohl die öffentliche als auch die wissenschaftliche Erwartungshaltung an die Fähigkeiten von KI. Gleichzeitig wächst die Skepsis, ob die angezeigten Genauigkeiten tatsächlich die wahre Leistungsfähigkeit widerspiegeln.