Beschleunigung von Mamba2 durch Kernel-Fusion
In diesem Beitrag zeigen wir, wie wir das Mamba‑2 State‑Space Dual (SSD) Modul mit einem zusammengeführten Triton‑Kernel optimiert haben. Durch die Fusion der Kernels konnten wir die Ausführungszeit drastisch reduzieren und beeindruckende Geschwindigkeitssteigerungen von 1,50‑ bis 2,51‑fach erreichen – und das auf den neuesten NVIDIA‑GPUs A100 und H100.