AIMER: Kalibrierungsfreies MoE‑Pruning ohne Aufgabenabhängigkeit
Die neuesten Mixture‑of‑Experts‑Modelle (MoE) erhöhen die Parameterkapazität, ohne dass die Berechnungskosten pro Token proportional steigen. Dennoch müssen bei der Bereitstellung alle Experten gespeichert werden, was…