Z-Pruner: Effizientes Post-Training-Pruning großer Sprachmodelle ohne Retraining
Große Sprachmodelle (LLMs) haben in den letzten Jahren enorme Fortschritte erzielt, bringen jedoch gleichzeitig enorme Modellgrößen mit sich, die die Bereitstellung, Skalierbarkeit und Energieeffizienz stark belasten. Um diesen Herausforderungen zu begegnen, gewinnt das Post-Training‑Pruning an Bedeutung, weil es die Modellgröße und die Inferenzlatenz reduziert, ohne dass ein erneutes Training erforderlich ist.