BayesianVLA: Zerlegung von VLA-Modellen mit latenten Aktionsabfragen
Vision‑Language‑Action‑Modelle (VLA) haben in der Robotik vielversprechende Fortschritte erzielt, stoßen jedoch häufig an ihre Grenzen, wenn neue Anweisungen oder komplexe Mehraufgaben-Szenarien zu bewältigen sind. Forscher haben ein entscheidendes Problem in den gängigen Trainingsparadigmen identifiziert: Durch zielgerichtete Datensammlung entsteht ein starkes Dataset‑Bias, bei dem Sprachbefehle fast ausschließlich aus den visuellen Beobachtungen vorhergesagt werden können. Dadurch verschwindet die bedingte gegenseitige Information zwischen Anweisungen und Aktionen – ein Phänomen, das als Information Collapse bezeichnet wird. Infolgedessen degenerieren Modelle zu rein visuellen Politiken, die Sprachbeschränkungen ignorieren und in Out‑of‑Distribution‑Situationen scheitern.