Große Vision‑Language‑Action‑Modelle vergessen kaum – neue Studie zeigt

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der Robotik ist das kontinuierliche Lernen von entscheidender Bedeutung: ein Agent muss im Laufe der Zeit neue Fertigkeiten erwerben, ohne die bereits gelernten zu verlieren. Eine aktuelle Untersuchung hat gezeigt, dass moderne, groß angelegte Vision‑Language‑Action‑Modelle (VLA) dabei erstaunlich robust sind. Im Vergleich zu kleineren Modellen, die von Grund auf neu trainiert werden, behalten VLA fast keine Erinnerung an frühere Aufgaben, selbst wenn sie mit nur wenigen Replay‑Daten arbeiten.

Die Forscher nutzten ein einfaches Experience‑Replay-Verfahren und fanden, dass es bei VLA oft zu keinem Vergessen kommt, obwohl der Replay‑Buffer sehr klein gehalten wurde. Der Schlüssel liegt laut Analyse im vortrainierten Wissen: Durch umfangreiches Pretraining lernen die Modelle, neue Aufgaben zu integrieren, ohne die Basisfähigkeiten zu zerstören. Gleichzeitig bewahren sie relevanten Kontext aus vorherigen Aufgaben, sodass ein späteres Fein‑Tuning die scheinbar verlorenen Fertigkeiten schnell wiederherstellen kann.

Diese Erkenntnisse deuten darauf hin, dass die Größe und das Pretraining von Modellen die Dynamik des kontinuierlichen Lernens grundlegend verändern. Mit einfachen Replay‑Mechanismen lassen sich große VLA‑Modelle kontinuierlich weiterentwickeln und neue Kompetenzen erwerben, ohne die Leistung auf bereits erlernten Aufgaben zu gefährden.

Ähnliche Artikel