E0: Verbesserte Generalisierung und feinkörnige Kontrolle in VLA-Modellen
Vision‑Language‑Action‑Modelle (VLA) verbinden Bild‑ und Sprachverarbeitung mit der Steuerung von Robotern. Trotz ihrer Vielseitigkeit zeigen bestehende VLA‑Systeme noch Schwächen bei der Generalisierung über verschiedene Aufgaben, Szenen und Kamerawinkel hinweg und liefern oft grobe oder instabile Aktionen.