E0: Verbesserte Generalisierung und feinkörnige Kontrolle in VLA-Modellen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Vision‑Language‑Action‑Modelle (VLA) verbinden Bild‑ und Sprachverarbeitung mit der Steuerung von Robotern. Trotz ihrer Vielseitigkeit zeigen bestehende VLA‑Systeme noch Schwächen bei der Generalisierung über verschiedene Aufgaben, Szenen und Kamerawinkel hinweg und liefern oft grobe oder instabile Aktionen.

Mit dem neuen Ansatz E0 wird die Aktionsgenerierung als iteratives Denoising über quantisierte Aktions‑Tokens formuliert – ein continuisiertes diskretes Diffusionsmodell. Durch die Verwendung diskreter Tokens passt sich die Modellarchitektur nahtlos an die symbolische Struktur vortrainierter VLM/VLA‑Backbones an, was die semantische Bedingung stärkt.

Ein weiterer Vorteil liegt darin, dass diskrete Diffusion die echte Quantisierung von Robotik‑Kontrollsignalen widerspiegelt. Hardware‑Einschränkungen wie Encoder‑Auflösung, Steuerfrequenz und Aktuationslatenz führen zu diskreten Signalen; ein Bayes‑optimaler Denoiser für diese Verteilung verbessert die Generalisierung signifikant.

Im Vergleich zu autoregressiven und maskenbasierten diskreten Diffusionsmodellen unterstützt E0 ein deutlich größeres und feiner abgestuftes Aktionsvokabular und vermeidet die durch Masken erzeugte Verteilungsdiskrepanz. Das Ergebnis ist eine präzisere, feinkörnige Aktionssteuerung.

Zusätzlich wird eine sphärische Sichtpunkt‑Störungsaugmentation eingeführt, die die Robustheit gegenüber Kameraverschiebungen erhöht, ohne zusätzliche Daten zu benötigen.

Experimentelle Tests auf den Benchmark‑Datensätzen LIBERO, VLABench und ManiSkill zeigen, dass E0 den aktuellen Stand der Technik übertrifft und damit einen wichtigen Schritt in Richtung verlässlicher, generalisierbarer robotergestützter Aktionen darstellt.

Ähnliche Artikel