Leichtgewichtiges Modell für Denken: Dynamisches Pruning & Distillation
Mit dem rasanten Fortschritt im Deep Learning haben große Sprachmodelle beeindruckende Fähigkeiten in komplexen Rechenaufgaben gezeigt. Ihre enorme Rechen- und Speicherbelastung erschwert jedoch die praktische Nutzung.
In einer neuen Studie wird ein schlankes Optimierungsverfahren vorgestellt, das dynamisches Pruning von Aufmerksamkeitsköpfen mit Wissensdistillation kombiniert. Dabei wird die Bedeutung jedes Kopfes in der Multi‑Head‑Attention‑Mechanik anhand von Gewichtsnormen und Entropie bewertet und überflüssige Köpfe in Echtzeit entfernt.
Um Leistungsverluste zu vermeiden, überträgt die Wissensdistillation Informationen vom ursprünglichen Modell auf das komprimierte „Student“-Modell. Dadurch behält das kleinere Modell seine Rechenkompetenz bei.
Experimentelle Tests auf den Datensätzen Math23k und ASDiv‑A belegen die Wirksamkeit: Bei einem 30 %‑Pruning‑Verhältnis sinken die Parameter um 18,7 %, die Inferenzgeschwindigkeit steigt um 27,5 %, die FLOPs reduzieren sich um 19,3 % und die Genauigkeit fällt lediglich um 0,7 % (von 84,4 % auf 83,7 %).
Die Ergebnisse zeigen, dass das Verfahren erhebliche Effizienzgewinne erzielt, während die starke Rechenleistung erhalten bleibt – ein praktischer Ansatz für den Einsatz großer Sprachmodelle in mathematischen Denkaufgaben.