E0: Verbesserte Generalisierung und feinkörnige Kontrolle in VLA-Modellen
Vision‑Language‑Action‑Modelle (VLA) verbinden Bild‑ und Sprachverarbeitung mit der Steuerung von Robotern. Trotz ihrer Vielseitigkeit zeigen bestehende VLA‑Systeme noch Schwächen bei der Generalisierung über verschiede…