Forschung
D^2Prune: LLMs kompakt durch Dual‑Taylor‑Expansion & Aufmerksamkeitsanalyse
Die enorme Rechenlast moderner Sprachmodelle erschwert deren Einsatz in ressourcenbeschränkten Umgebungen. Obwohl das Prunen als vielverspr…
arXiv – cs.LG