Sparsity and Superposition in Mixture of Experts
Anzeige
Ähnliche Artikel
arXiv – cs.LG
•
L-MoE: End-to-End Training of a Lightweight Mixture of Low-Rank Adaptation Experts
arXiv – cs.AI
•
MultiPL-MoE: Sprachübergreifende Programmierung mit hybriden Experten für LLMs
Jack Clark – Import AI
•
Import AI 414: Superpersuasion; OpenAI models avoid shutdown; weather prediction and AI
arXiv – cs.AI
•
SofT-GRPO: Soft-Thinking-LLMs übertreffen klassische Token-basierte RL-Methoden
arXiv – cs.LG
•
Mehr Vielfalt, weniger Redundanz: Multi-Expert Sparse Autoencoder für LLMs
arXiv – cs.LG
•
Leak@$k$: Unlearning lässt LLMs unter probabilistischer Decodierung nicht vergessen