DAPA: Schnellere, ressourcenschonende Aktivierungsfunktionen für Transformer
DAPA (Distribution‑Aware Piecewise Activation) ist eine neue, differenzierbare Aktivierungsfunktion, die speziell für Transformer‑Modelle entwickelt wurde. Sie nutzt die Verteilung der Vor‑Aktivierungsdaten, um die Rechenlast auf mobilen Geräten zu reduzieren und gleichzeitig die Energieeffizienz z…