SpecMD: Benchmark-Studie enthüllt neue Caching-Strategien für MoE-Modelle
Die neueste Forschung aus dem arXiv-Repository beleuchtet, wie Mixture-of-Experts (MoE)-Modelle durch gezieltes Caching ihre Leistung deutlich steigern können. MoE-Modelle aktivieren nur einen Teil ihrer Parameter bei jeder Inferenz, was eine effiziente Speicherverwaltung erfordert. Hierfür wurde das neue Framework SpecMD entwickelt, das verschiedene Caching-Strategien systematisch auf unterschiedlichen Hardwarekonfigurationen testet.
Durch umfangreiche Benchmarks zeigte die Studie, dass die Zugriffe auf Experten nicht den klassischen Annahmen von temporaler Lokalität (wie LRU oder LFU) entsprechen. Aus diesem Grund wurde die innovative Least-Stale-Eviction-Policy vorgestellt, die die vorhersehbaren Zugriffsabläufe von MoE nutzt. Im Vergleich zu LRU reduziert sie Kollisionen bis zu 85‑fach und erzielt damit über 88 % Trefferquote.
Ein besonders beeindruckender Erfolg wurde bei der OLMoE-Architektur erzielt: Mit nur 5 % bzw. 0,6 GB VRAM als Cache konnte die Time-to-First-Token um 34,7 % verkürzt werden. Diese Ergebnisse zeigen, dass gezieltes Caching nicht nur die Effizienz steigert, sondern auch die Hardwareanforderungen erheblich senken kann.