SL‑SAM: Sparsere Schichten für effizientes Fine‑Tuning
Die Methode Sharpness‑Aware Minimization (SAM) sucht flache Minima im Verlustfeld, um die Generalisierung von Modellen zu verbessern. Ihr zusätzlicher Parameter‑Störschritt verdoppelt jedoch die Rechenkosten und wird zum Engpass in der Praxis.
SL‑SAM löst dieses Problem, indem es die Schichten eines Modells sparsamer nutzt. Durch die dynamische Auswahl von Schichten für die Störung (Gradient‑Aufstieg) und die Aktualisierung (Gradient‑Abstieg) – modelliert als Multi‑Armed‑Bandit‑Problem – werden nur die wichtigsten Parameter berücksichtigt. Die Auswahl basiert auf dem Gradientennorm, sodass die Back‑Propagation auf einen Bruchteil der Parameter beschränkt bleibt.
Die Analyse garantiert die Konvergenz von SL‑SAM, und Experimente zeigen, dass die Methode in verschiedenen Fine‑Tuning‑Aufgaben die Leistungen der führenden Baselines erreicht. Besonders bei großen Sprachmodellen belegte SL‑SAM den ersten Platz. Gleichzeitig reduziert es die aktiven Parameter im Back‑Propagation‑Schritt drastisch: 47 % bei Vision‑Modellen, 22 % bei moderaten Modellen und 21 % bei großen Sprachmodellen – im Vergleich zu 100 % bei herkömmlichem SAM. Damit demonstriert SL‑SAM eine erhebliche Effizienzsteigerung ohne Qualitätsverlust.