Opportunistic Expert Activation: Batch-Aware Expert Routing for Faster Decode Without Retraining
Anzeige
Ähnliche Artikel
arXiv – cs.LG
•
Kompression als Routing: Rekonstruktionsfehler Signal für modulare Sprachmodelle
arXiv – cs.LG
•
Go-UT-Bench: neues Dataset für LLM-gestützte Unit-Test-Generierung in Go
arXiv – cs.LG
•
Selbstverbessernde RL: LLMs meistern offene Aufgaben ohne externe Belohnungen
arXiv – cs.AI
•
PuzzleMoE: Kompression von MoE-Modellen um 50 % ohne Qualitätsverlust
MarkTechPost
•
IBM Released new Granite 4.0 Models with a Novel Hybrid Mamba-2/Transformer Architecture: Drastically Reducing Memory Use without Sacrificing Performance
Sebastian Raschka – Ahead of AI
•
Qwen3 von Grund auf: Ein Leitfaden zum führenden Open‑Source‑LLM