LLM‑Gewichte komprimieren: Low‑Rank‑Tensor‑Approximation mit Cosine Lanczos
Die neuesten Fortschritte in großen Sprachmodellen (LLMs) haben die Leistungsfähigkeit in vielen NLP‑Aufgaben revolutioniert – gleichzeitig steigen Speicherbedarf und Rechenaufwand exponentiell. Eine neue Methode, die auf arXiv unter der Nummer 2601.17112v1 veröffentlicht wurde, bietet einen vielversprechenden Weg, diese Engpässe zu überwinden.
Im Kern nutzt die Technik das sogenannte cproduct, um die Gewichtstensoren von Embedding‑Schichten, Aufmerksamkeitsprojektionen und Feed‑Forward‑Netzwerken in einen Transformationsraum zu überführen. Dort lassen sich die frontal geschnittenen Tensor‑Slices gemeinsam durch niedrige Rangsfaktoren approximieren. Dieser Ansatz geht über die herkömmliche Singular Value Decomposition (SVD) hinaus, indem er multidimensionale Korrelationen ausnutzt und damit eine kompaktere Repräsentation ermöglicht.
Durch die Low‑Rank‑Tensor‑Approximation werden die Modelle nicht nur kleiner, sondern auch schneller. Die Kompression reduziert den Speicherbedarf erheblich, während die Berechnungen dank der strukturierten Faktorisierung effizienter werden. Dies eröffnet neue Möglichkeiten für den Einsatz von LLMs auf ressourcenbeschränkten Geräten und in Echtzeit‑Anwendungen.
Die vorgestellte Methode stellt einen bedeutenden Schritt in Richtung nachhaltiger KI dar. Sie zeigt, dass durch geschickte mathematische Strukturen und moderne Approximationstechniken die Leistungsfähigkeit großer Sprachmodelle erhalten bleiben kann, ohne die Hardwareanforderungen drastisch zu erhöhen.