SQAP‑VLA: Quantisierung und Token‑Pruning vereint – 1,93‑facher Speedup für Vision‑Language‑Action‑Modelle
Vision‑Language‑Action‑Modelle (VLA) zeigen bislang ungeahnte Möglichkeiten für eingebettete Intelligenz, doch ihre enormen Rechen- und Speicheranforderungen erschweren die praktische Nutzung. Traditionelle Kompressions‑ und Beschleunigungsansätze kombinieren Quantisierung oder Token‑Pruning meist einzeln und scheitern dabei an einer beobachteten Inkompatibilität.