TTF‑VLA: Zeitsensitive Tokenfusion verbessert Vision‑Language‑Action‑Modelle
Vision‑Language‑Action‑Modelle (VLA) verarbeiten Bilder bislang frame‑by‑frame und vernachlässigen dadurch die wertvolle zeitliche Kohärenz, die bei robotergestützten Manipulationsaufgaben entsteht. Das neue Verfahren Temporal Token Fusion (TTF) löst dieses Problem, indem es ohne zusätzliche Trainingsschritte die aktuellen und vergangenen visuellen Repräsentationen intelligent kombiniert.