KI-Benchmarks: Ein schlechter Scherz – die Entwickler lachen lautlos
Ein neues Forschungsprojekt hat die Wirksamkeit gängiger KI-Benchmarks in Frage gestellt. Die Untersuchung zeigt, dass viele Tests nicht die Fähigkeiten messen, die für reale Anwendungen entscheidend sind.