SSM-Modelle schrumpfen im Training: Schnellere Optimierung ohne Leistungseinbußen
State‑Space‑Modelle (SSMs) sind darauf ausgelegt, lange Sequenzen effizient zu verarbeiten. Sie kombinieren paralleles Training mit schneller Inferenz, indem sie dynamische Systeme mit einem versteckten Zustand nutzen. Der Rechenaufwand hängt jedoch von der Dimension dieses Zustands ab, was ein Balance‑Dilemma zwischen Ausdruckskraft und Effizienz schafft.