XShare: Schnellere MoE-Inferenz durch kollaborative Expertenauswahl
In einer neuen Veröffentlichung auf arXiv (2602.07265v1) stellen die Autoren XShare vor – ein Verfahren, das die Effizienz von Mixture-of-Experts (MoE)-Modellen in der Praxis deutlich steigert. MoE-Architekturen sind mittlerweile Standard, um große Sprachmodelle kostengünstig zu skalieren. Doch in der produktiven Inferenz führen Batch‑Verarbeitung und spekulatives Decodieren dazu, dass immer mehr Experten aktiviert werden, was die erwarteten Leistungsgewinne zunichte macht.