CALR: Adaptive Low‑Rank‑Kompression für effiziente LLM‑Layer
Large Language Models (LLMs) sind wegen ihrer enormen Größe und Rechenintensität schwer in ressourcenbeschränkten Umgebungen einsetzbar. Um diese Modelle praktikabler zu machen, setzen Entwickler auf Kompressionstechniken, wobei die Low‑Rank‑Faktorisierung mittels Singular Value Decomposition (SVD) besonders beliebt ist. SVD reduziert die Parameterzahl, indem Gewichtsmatrizen angenähert werden, doch dabei wird häufig die funktionale Leistung des Modells stark beeinträchtigt, weil die verlorenen Informationen nicht korrigiert werden.