SALR: Sparsity‑Aware Low‑Rank Representation beschleunigt Feinabstimmung von LLMs

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die neue Methode SALR (Sparsity‑Aware Low‑Rank Representation) löst ein zentrales Problem bei der Anpassung großer Sprachmodelle: Sie reduziert die Anzahl der zu trainierenden Parameter drastisch, ohne die Modellleistung zu beeinträchtigen. Dadurch wird das Feintuning in ressourcenbeschränkten Umgebungen praktikabel.

SALR kombiniert gezieltes Pruning der festen Basisgewichte mit einer Low‑Rank‑Adapter‑Architektur, die auf einem rigorosen mittleren quadratischen Fehler (MSE) Rahmen basiert. Durch das statische Entfernen von Gewichten minimiert die Methode den Pruning‑Fehler, während ein truncierter SVD‑Adapter die verlorenen Informationen wiederherstellt und den MSE pro Eintrag um einen Faktor von (1 - r/min(d,k)) senkt. Für maximale Hardwareeffizienz werden mehrere Low‑Rank‑Adapter zu einer einzigen GEMM‑Operation zusammengeführt, und ein bitmap‑basiertes Encoding mit zweistufigem pipelined Decoding + GEMM sorgt für echte Kompression und Beschleunigung.

Experimentell erreicht SALR eine 50 %ige Sparsität bei verschiedenen großen Sprachmodellen und hält die Leistung von LoRA bei den Benchmarks GSM8K und MMLU ein. Gleichzeitig reduziert es die Modellgröße um das Zweifache und liefert bis zu 1,7‑fach schnellere Inferenzzeiten.

Ähnliche Artikel