VGAS: Mehr Erfolg bei wenigen Demonstrationen in Vision‑Language‑Action-Modellen
Ein neues Forschungsprojekt namens VGAS (Value‑Guided Action‑Chunk Selection) verspricht, die Zuverlässigkeit von Vision‑Language‑Action‑Modellen bei der Anpassung an neue Aufgaben mit nur wenigen Demonstrationen deutlich zu erhöhen. Die Autoren zeigen, dass herkömmliche Feinabstimmungen zwar oft semantisch plausible Trajektorien erzeugen, aber bei geometrischen Unsicherheiten zu unerwarteten Ausführungsfehlern führen.
VGAS arbeitet auf einer Generation‑Selection‑Strategie und wählt bei der Inferenz die besten von N möglichen Aktions‑Chunks aus. Dazu nutzt es einen feinabgestimmten VLA‑Generator, der eine hohe Erkennungsrate liefert, und einen sogenannten Q‑Chunk‑Former, einen geometrisch fundierten Transformer‑Kritiker, der die feinen räumlichen Unklarheiten klärt. Zusätzlich wird eine explizite geometrische Regularisierung (EGR) eingesetzt, die das Werte‑Landschafts‑Profil schärft und die Rangordnung der Kandidaten stabilisiert, selbst bei sehr knappen Trainingsdaten.
Experimentelle Ergebnisse und theoretische Analysen belegen, dass VGAS die Erfolgsraten und die Robustheit gegenüber begrenzten Demonstrationen sowie bei Verteilungssprüngen konsistent verbessert. Der komplette Code ist öffentlich zugänglich unter https://github.com/Jyugo-15/VGAS.