MultiNet v1.0: Benchmark testet Generalität von Vision‑Language‑Action Modellen
Die Vision, multimodale Agenten zu schaffen, die gleichzeitig Wahrnehmung, Sprache und Steuerung in verschiedensten realen Umgebungen meistern, steht noch immer vor einer entscheidenden Hürde: die Bewertung ihrer Generalität ist bislang fragmentiert. Mit dem neuen Benchmark MultiNet v1.0 wird dieses Problem angegangen. Der Test vereint sechs fundamentale Fähigkeitsbereiche – visuelles Grounding, räumliches Denken, Werkzeuggebrauch, physisches Common Sense, Koordination mehrerer Agenten und kontinuierliche Robotiksteuerung – in einem einheitlichen Rahmen.