MultiNet v1.0: Benchmark testet Generalität von Vision‑Language‑Action Modellen
Die Vision, multimodale Agenten zu schaffen, die gleichzeitig Wahrnehmung, Sprache und Steuerung in verschiedensten realen Umgebungen meistern, steht noch immer vor einer entscheidenden Hürde: die Bewertung ihrer Genera…