Dynamisches Top‑p MoE: Flexibles Routing für große Modelle
Ein neues Papier aus dem arXiv‑Repository präsentiert DTop‑p MoE, ein innovatives Verfahren, das die klassische Top‑k‑Routingschaltung durch ein dynamisches Top‑p‑Routing ersetzt. Während bei herkömmlichen Sparse‑Mixture‑of‑Experts‑Architekturen immer nur ein kleiner Teil der Experten pro Token aktiviert wird, berücksichtigt DTop‑p die individuelle Schwierigkeit jedes Tokens und passt die Aktivierungswahrscheinlichkeit in Echtzeit an.