MoE‑SpeQ: Spekulatives Quantisierung‑Decoding mit proaktivem Expert‑Prefetching
Die neuesten Mixture‑of‑Experts‑Modelle fordern enorme Speicherressourcen, die oft die Kapazität eines einzelnen Beschleunigers sprengen. Traditionell werden die Experten in den Host‑Speicher ausgelagert, was jedoch ein…