D^2Prune: LLMs kompakt durch Dual‑Taylor‑Expansion & Aufmerksamkeitsanalyse
Die enorme Rechenlast moderner Sprachmodelle erschwert deren Einsatz in ressourcenbeschränkten Umgebungen. Obwohl das Prunen als vielversprechende Kompressionsmethode gilt, leiden bisherige Verfahren unter zwei graviere…