Generalisierung statt Intelligenz: Neue Messkriterien für KI-Modelle
In der KI-Forschung werden Modelle häufig anhand von Benchmarks wie ARC, Raven‑inspirierten Tests und dem Blackbird Task bewertet. Diese Tests sollen die „Intelligenz“ großer Sprachmodelle messen, doch die Definition vo…