eMamba: Beschleunigungsframework für Mamba‑Modelle auf Edge‑Geräten

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die neue Plattform eMamba bringt State‑Space‑Modelle (SSM) wie Mamba endlich in die Reichweite von ressourcenbeschränkten Edge‑Geräten. Durch gezielte Optimierungen an den Kernoperationen wird die Rechenleistung drastisch erhöht, während die Genauigkeit erhalten bleibt.

Im Kern ersetzt eMamba aufwändige Normalisierungsschichten durch leichtgewichtige, hardware‑bewusste Alternativen. Zusätzlich werden teure Operationen wie die SiLU‑Aktivierung und Exponentiation mithilfe von Approximationen reduziert. Ein spezieller, approximations‑sensibler Neural‑Architecture‑Search (NAS) passt die lernbaren Parameter an, sodass die Kompromisse zwischen Genauigkeit und Effizienz optimal ausbalanciert werden.

Die Tests auf Bild‑ und Pose‑Datensätzen – Fashion‑MNIST, CIFAR‑10 und MARS – zeigen, dass eMamba die gleiche Genauigkeit wie führende Transformer‑Modelle erreicht, jedoch mit 1,63‑bis‑19,9‑fach weniger Parametern. Auf dem Text‑Benchmark WikiText‑2 behält das System stabile Perplexitätswerte über unterschiedliche Sequenzlängen hinweg, was seine Vielseitigkeit für große NLP‑Aufgaben unterstreicht.

Die komplette Pipeline wurde erfolgreich auf einer AMD ZCU102 FPGA‑Plattform sowie einer ASIC‑Implementierung in GlobalFoundries’ 22 nm‑Technologie quantisiert und realisiert. Diese Hardware‑Implementierungen demonstrieren, dass eMamba nicht nur softwareseitig, sondern auch hardwareseitig eine effiziente Lösung für Edge‑Computing‑Anwendungen darstellt.

Ähnliche Artikel