Weniger trainieren, schneller inferieren: Sparsity-basiertes Finetuning
Ein neues arXiv-Preprint (2602.09169v1) präsentiert einen innovativen Ansatz, um große Sprachmodelle effizient an spezifische Aufgaben anzupassen. Der Autor zeigt, dass das vollständige Finetuning von Modellen mit Milliarden Parametern oft unpraktisch ist, weil es enorme Rechenkosten, Speicherbedarf und das Risiko von Overfitting mit sich bringt.
Herkömmliche Methoden wie LoRA fügen dem eingefrorenen Modell kleine trainierbare Module hinzu, erhöhen jedoch den Speicherverbrauch und senken die Inferenzgeschwindigkeit nicht. Der neue Ansatz nutzt stattdessen gezielte Sparsifizierung von Zeilen und Spalten im Modell. Durch das Einführen von stochastischen Gates werden nur wenige Parameter trainiert, während 20 % bis 40 % der ursprünglichen Parameter entfernt werden – ohne signifikanten Genauigkeitsverlust.
Die experimentellen Ergebnisse zeigen, dass diese sparsifizierte Feinabstimmung die Effizienz und Leistung gegenüber aktuellen Baselines deutlich verbessert. Zusätzlich liefert der Beitrag theoretische Konvergenzgarantien für den stochastischen Gating-Prozess und demonstriert, dass die Optimierungslandschaft im Vergleich zu LoRA einfacher und besser konditioniert ist.
Zusammenfassend unterstreicht die Studie die Kraft der strukturierten Sparsität als effektives Mittel zur Aufgaben‑spezifischen Anpassung von Sprachmodellen, das sowohl Speicher als auch Rechenzeit spart, ohne die Modellqualität zu beeinträchtigen.