ENACT: Benchmark prüft, ob Vision‑Language‑Modelle wirklich sensorisch handeln
Die neue Studie „ENACT“ stellt Vision‑Language‑Modelle (VLMs) einer einzigartigen Herausforderung gegenüber: Sie prüfen, ob diese Systeme wirklich aus sensorisch-motorischer Interaktion lernen oder lediglich passiv beobachten. Durch die Einführung eines Benchmarks, der die Bewertung von eingebetteter Kognition als Weltmodellierung aus egoszentrischer Sicht in einem Visual‑Question‑Answering‑Format (VQA) gestaltet, wird die Frage konkret beantwortet.