EPAS steigert Training und Inference von Transformers um bis zu 29 %
Die neue Methode EPAS (Effizientes Training mit progressivem Aktivierungs-Sharing) verbindet das progressive Training mit dem Phänomen redundanter QK‑ bzw. KV‑Aktivierungen in tiefen Transformer‑Schichten. Durch das schrittweise Ausdehnen eines Aktivierungs‑Sharing‑Bereichs während des Trainings werden Rechenaufwand und Durchsatz signifikant reduziert.
EPAS startet die Sharing‑Region am tiefen Ende des Modells und erweitert sie gezielt nach oben. Dabei werden Decoder‑Schichten in den Sharing‑Modus geschaltet, sodass bereits vorhandene Aktivierungen mehrfach genutzt werden können. Für die Inferenz lässt sich die Länge des Sharing‑Bereichs flexibel an unterschiedliche Rechenbudgets anpassen, ohne die Modellleistung zu beeinträchtigen.
Experimentelle Tests an LLaMA‑Modellen von 125 M bis 7 B Parametern zeigen bis zu 11,1 % höhere Trainingsdurchsatzraten und bis zu 29 % schnellere Inferenz, während die Verlustkurve dem Basismodell entspricht. In einer kontinuierlichen Vortrainings‑Phase wurde TinyLLaMA mit EPAS in ein Aufmerksamkeits‑Sharing‑Modell verwandelt, was die durchschnittliche Genauigkeit um bis zu 10 % gegenüber aktuellen Methoden steigerte. Diese Ergebnisse unterstreichen die Bedeutung progressiver Trainingsstrategien für effiziente Cross‑Layer‑Aktivierungs‑Sharing‑Modelle.