Generalisierung statt Intelligenz: Neue Messkriterien für KI-Modelle
In der KI-Forschung werden Modelle häufig anhand von Benchmarks wie ARC, Raven‑inspirierten Tests und dem Blackbird Task bewertet. Diese Tests sollen die „Intelligenz“ großer Sprachmodelle messen, doch die Definition von Intelligenz bleibt vage und liefert keine verlässlichen Vorhersagen für reale Aufgaben wie Fragenbeantwortung, Zusammenfassung oder Programmieren.
Die Autoren argumentieren, dass die Bewertung von Modellen nicht mehr auf abstrakten Intelligenzkonzepten beruhen sollte, sondern auf ihrer Generalität. Sie untersuchen drei häufige Annahmen – Generalität, Stabilität und Realismus – und zeigen, dass nur die Generalität den theoretischen und empirischen Prüfungen standhält.
Intelligenz ist laut der Studie nicht das, was Generalität ermöglicht; vielmehr ist Generalität ein Mehrfachaufgabenproblem, das die Leistungsbreite und Zuverlässigkeit eines Modells direkt misst. Durch diesen Ansatz wird die Bewertung von KI-Fortschritten neu ausgerichtet und Generalität als stabile Grundlage für die Messung von Fähigkeiten über vielfältige und sich wandelnde Aufgaben hinweg vorgeschlagen.