Beschleunigung von Mamba2 durch Kernel-Fusion
In diesem Beitrag zeigen wir, wie wir das Mamba‑2 State‑Space Dual (SSD) Modul mit einem zusammengeführten Triton‑Kernel optimiert haben. Durch die Fusion der Kernels konnten wir die Ausführungszeit drastisch reduzieren…