EvoESAP: Nicht-Uniformes Expertenpruning für Sparse MoE – Mehr Leistung
Die neuesten Sparse Mixture-of-Experts (SMoE) Sprachmodelle kombinieren starke Leistungsfähigkeit mit geringer pro‑Token‑Rechenlast. In der Praxis bleiben sie jedoch an Speicher‑ und Durchsatzgrenzen gebunden, weil die…