Wissenschaftliche Bewertung von KI erfordert Daten auf Item‑Ebene
KI‑Evaluierungen sind heute das zentrale Beweismittel für den Einsatz generativer Systeme in hochriskanten Bereichen. Trotz ihrer Bedeutung zeigen aktuelle Bewertungsparadigmen systematische Validitätsfehler, die von un…