Generalisierung statt Intelligenz: Neue Messkriterien für KI-Modelle
In der KI-Forschung werden Modelle häufig anhand von Benchmarks wie ARC, Raven‑inspirierten Tests und dem Blackbird Task bewertet. Diese Tests sollen die „Intelligenz“ großer Sprachmodelle messen, doch die Definition von Intelligenz bleibt vage und liefert keine verlässlichen Vorhersagen für reale Aufgaben wie Fragenbeantwortung, Zusammenfassung oder Programmieren.