FlashMoE: SSD-Cache für Mixture-of-Experts auf Edge-Geräten optimiert
Die neueste Forschung im Bereich der großen Sprachmodelle zeigt, dass Mixture-of-Experts (MoE) dank ihrer sparsamen Aktivierung selbst auf Geräten mit begrenztem Speicher effizient eingesetzt werden können. Traditionell…