LAPA: Neuer sparsamer Accelerator für Transformer mit Log‑Domain‑Vorhersage
Die neuesten Transformer‑Modelle haben die Verarbeitung natürlicher Sprache und Bilddaten revolutioniert. Doch je nach Eingabesequenz verändern sich die Engpässe im Rechenfluss, was eine dynamische, mehrstufige Sparsity‑Strategie erfordert. Bisher konzentrierten sich die meisten sparsamen Ansätze auf einzelne Stufen und führten bei Mehrstufigkeit zu erheblichen Stromkosten.
Mit dem Log‑Domain Attention Prediction‑Driven Accelerator (LAPA) wird dieses Problem neu gelöst. Durch ein gemeinsames Design von Algorithmus und Architektur wird die Aufmerksamkeit in der Log‑Domain vorhergesagt. Das asymmetrische Leading‑One‑Computing (ALOC) eliminiert teure Multiplikationen, während der Mixed‑Precision Multi‑Round Shifting Accumulation (MRSA) die Akkumulationskosten reduziert. Ein daten‑feature‑abhängiger Filter (DDF) arbeitet eng mit MRSA zusammen, um die Effizienz weiter zu steigern.
Der entwickelte Hardware‑Accelerator setzt diese Konzepte praktisch um. In Experimenten konnte LAPA die Energieeffizienz gegenüber den führenden Systemen Spatten, Sanger und FACT um 3,52‑, 3,24‑ und 2,79‑Fach erhöhen. Damit bietet LAPA einen bedeutenden Fortschritt für energieeffiziente Transformer‑Anwendungen in Forschung und Industrie.