KI News: Kurz und klar.

Anmelden

Opportunistic Expert Activation: Batch-Aware Expert Routing for Faster Decode Without Retraining

arXiv – cs.LG • 05.11.2025 05:00 • Original

#LLM #Mixture-of-Experts #MoE #Token-zu-Experten-Routing #Batch-Aware Routing #Decode-Latenz #Qwen3

Anzeige

Ähnliche Artikel

arXiv – cs.LG • 11.02.2026 05:00

MoE-LLM-Kompression durch Routing-Frequenz und Informationsdichte

arXiv – cs.LG • 03.02.2026 05:00

Dispersion Loss reduziert Embedding-Condensation und verbessert kleine Sprachmodelle

arXiv – cs.LG • 22.12.2025 05:00

Kompression als Routing: Rekonstruktionsfehler Signal für modulare Sprachmodelle

arXiv – cs.LG • 17.11.2025 05:00

Go-UT-Bench: neues Dataset für LLM-gestützte Unit-Test-Generierung in Go

arXiv – cs.LG • 12.11.2025 05:00

Selbstverbessernde RL: LLMs meistern offene Aufgaben ohne externe Belohnungen

arXiv – cs.AI • 10.11.2025 05:00

PuzzleMoE: Kompression von MoE-Modellen um 50 % ohne Qualitätsverlust