Suche nach Mixture-of-Experts

Neues Training für MoE-Modelle: Experten lernen sich zu spezialisieren

Die Mixture-of-Experts (MoE)-Architektur gilt als Schlüsseltechnologie für die Skalierung großer Sprachmodelle, leidet jedoch häufig unter…

arXiv – cs.LG 03.03.2026 05:00

Forschung

Soft-MoE: Robustere Exploration in der gerichteten Controller‑Synthese

In der On‑the‑Fly‑Directed Controller Synthesis (OTF‑DCS) wird das Problem der explosionsartigen Zustandsraumgröße durch schrittweise Explo…

arXiv – cs.AI 24.02.2026 05:00

Forschung

GrMoE: Neue Routing‑Methode für Mixture‑of‑Experts mit kontrollierter Sparsität

Mixture‑of‑Experts‑Modelle setzen auf Router, um Tokens an Experten zu verteilen. Die gängige Softmax‑Gating‑Methode bietet jedoch keine kl…

arXiv – cs.LG 23.02.2026 05:00

Forschung

Neues Mixture-of-Experts-Modell verbessert Agentic RL durch Phasenorientierung

In der Welt des Reinforcement Learning (RL) haben große Sprachmodelle (LLM) Agenten mit einer beeindruckenden Fähigkeit ausgestattet, kompl…

arXiv – cs.AI 20.02.2026 05:00

Forschung

Arcee präsentiert Trinity Large: 400 Billionen Parameter, neue MoE-Strategie

Arcee AI hat heute den technischen Bericht zu ihrem neuesten Sprachmodell Trinity Large veröffentlicht. Das sparsamente Mixture-of-Experts-…

arXiv – cs.LG 20.02.2026 05:00

Forschung

SD-MoE: Spektrale Trennung steigert Experten-Spezialisierung in Sprachmodellen

Ein neues arXiv-Papier präsentiert SD-MoE, eine Methode, die die Spektralstruktur von Parametern und Gradienten nutzt, um die Effektivität…

arXiv – cs.LG 16.02.2026 05:00

Forschung

Multi-Head Attention verursacht Vergessens bei MoE-Transformern – Lösung reduziert Rückfall

Mixture-of-Experts (MoE)-Architekturen gelten als vielversprechend für kontinuierliches Lernen, weil die sparsamen Routenupdates die Interf…

arXiv – cs.LG 16.02.2026 05:00

Forschung

MELINOE: Durch Feintuning werden MoE-Modelle speichereffizienter

Die neue Methode MELINOE nutzt Feintuning, um Mixture-of-Experts (MoE)-Modelle deutlich speichereffizienter zu machen. MoE-Architekturen re…

arXiv – cs.LG 13.02.2026 05:00

Forschung

MalMoE: Mixture-of-Experts erkennt verschlüsselten Malware-Verkehr trotz Graph‑Drift

Die zunehmende Nutzung von Verschlüsselung im Netzwerkverkehr erschwert die Erkennung von bösartigen Datenpaketen, weil der Inhalt der Pake…

arXiv – cs.AI 12.02.2026 05:00

Forschung

MoE-LLM-Kompression durch Routing-Frequenz und Informationsdichte

Die neuesten Fortschritte bei Mixture-of-Experts (MoE) Modellen haben die Leistungsfähigkeit großer Sprachmodelle deutlich gesteigert – doc…

arXiv – cs.LG 11.02.2026 05:00

Forschung

XShare: Schnellere MoE-Inferenz durch kollaborative Expertenauswahl

In einer neuen Veröffentlichung auf arXiv (2602.07265v1) stellen die Autoren XShare vor – ein Verfahren, das die Effizienz von Mixture-of-E…

arXiv – cs.LG 10.02.2026 05:00

Forschung

HyPER: Dynamische Pfadoptimierung steigert LLM-Logik bei geringem Rechenaufwand

Ein neues Verfahren namens HyPER verspricht, die Rechenleistung von großen Sprachmodellen (LLMs) beim logischen Denken effizienter zu nutze…

arXiv – cs.AI 09.02.2026 05:00

Forschung

MoSE: Flexibles Mixture-of-Experts-Modell steigert Effizienz von Sprachmodellen

Die neueste Forschung auf arXiv (2602.06154v1) präsentiert MoSE – ein innovatives Mixture-of-Experts (MoE)-Modell, das die Leistungsfähigke…

arXiv – cs.LG 09.02.2026 05:00

Forschung

SpecMD: Benchmark-Studie enthüllt neue Caching-Strategien für MoE-Modelle

Die neueste Forschung aus dem arXiv-Repository beleuchtet, wie Mixture-of-Experts (MoE)-Modelle durch gezieltes Caching ihre Leistung deutl…

arXiv – cs.AI 05.02.2026 05:00

Forschung

Test-Time Mixture of World Models verbessert Anpassungsfähigkeit von Agents

In der aktuellen Forschung werden Sprachmodell-basierte Embodied Agents immer häufiger in realen Umgebungen eingesetzt. Ihre Fähigkeit, sic…

arXiv – cs.AI 02.02.2026 05:00

Forschung

Mixture-of-Experts: Hyperparameter-Transfer für skalierbare Transformer

Mixture-of-Experts (MoE)-Schichten haben sich als Schlüsseltechnologie etabliert, um moderne neuronale Netzwerke zu skalieren. Sie trennen…

arXiv – cs.LG 29.01.2026 05:00

Forschung

LLEP: Schnellere, Speicherfreundlichere MoE-Modelle dank dynamischer Lastverteilung

In der Welt der großen Sprachmodelle, die auf Mixture-of-Experts (MoE) setzen, ist die effiziente Verteilung von Rechenaufgaben entscheiden…

arXiv – cs.LG 27.01.2026 05:00

Forschung

FlashMoE: SSD-Cache für Mixture-of-Experts auf Edge-Geräten optimiert

Die neueste Forschung im Bereich der großen Sprachmodelle zeigt, dass Mixture-of-Experts (MoE) dank ihrer sparsamen Aktivierung selbst auf…

arXiv – cs.LG 27.01.2026 05:00

Forschung

GRIP: Geometrische Routerbeschränkung für Unlearning bei Mixture-of-Experts

Die Sicherheit großer Sprachmodelle hängt zunehmend von der Fähigkeit ab, gezielt Wissen zu löschen – ein Prozess, der als Machine Unlearni…

arXiv – cs.LG 26.01.2026 05:00

Forschung

N-Way Self-Evaluating Deliberation: Neue Architektur vereint heterogene Agenten

Das N-Way Self-Evaluating Deliberation (NSED) ist ein neues Runtime Mixture-of-Models (MoM)-Protokoll, das aus einer Vielzahl unterschiedli…

arXiv – cs.AI 26.01.2026 05:00

Forschung

Effizienzsteigerung bei Mixture-of-Experts durch Gewicht- und Daten‑Sparsity

In einem neuen Beitrag auf arXiv wird gezeigt, wie Mixture-of-Experts‑Schichten die Rechenleistung durch Gewichtssparsity schon optimieren…

arXiv – cs.LG 23.01.2026 05:00

Forschung

<h1>Layer‑Adaptive Expert Pruning steigert Effizienz beim Vortraining von MoE‑LLMs</h1> <p>Mixture‑of‑Experts‑Modelle (MoE) sind bekannt dafür, mit einer geringeren Anzahl aktiver Parameter eine überlegene Genauigkeit zu liefern. Ihr Vortraining bleibt jedoch ein erheblicher Rechenengpass, weil viele Experten kaum genutzt werden und die Trainingseffizienz begrenzt ist.</p> <p>Die neue Methode <strong>Layer‑Adaptive Expert Pruning (LAEP)</strong> richtet sich gezielt an diese Schwachstelle. Während des Vort

arXiv – cs.LG 22.01.2026 05:00

Forschung

EMoE: Eigenbasis‑gesteuerte Routenführung für Mixture-of-Experts

Mit dem unaufhörlichen Wachstum von Deep‑Learning‑Modellen steigen die Rechenkosten exponentiell. Mixture‑of‑Experts‑Architekturen (MoE) ge…

arXiv – cs.LG 21.01.2026 05:00

Forschung

Selbstaugmentierte Mixture-of-Experts revolutioniert QoS-Vorhersagen

It looks like the passage you provided is already written in German. If you intended to translate it into another language (or if you’d lik…

arXiv – cs.LG 19.01.2026 05:00

Praxis

DeepSeek präsentiert Engram: Konditionale Speicherachse für sparsames LLM

DeepSeek hat ein neues Modul namens Engram vorgestellt, das die Lücke in aktuellen Transformer-Modellen schließt. Während Transformer-Archi…

MarkTechPost 15.01.2026 07:54

Forschung

Monkey Jump: Effizientes Multi-Task-Lernen ohne zusätzliche Parameter

Die neueste Veröffentlichung auf arXiv (2601.06356v1) stellt Monkey Jump vor – eine Methode, die die Vorteile von Mixture-of-Experts (MoE)…

arXiv – cs.LG 13.01.2026 05:00

Forschung

Kompression als Routing: Rekonstruktionsfehler Signal für modulare Sprachmodelle

Die neuesten Fortschritte bei großen Sprachmodellen (LLMs) stehen vor drei zentralen Problemen: begrenzte Kontextlängen, hohe Inferenzkoste…

arXiv – cs.LG 22.12.2025 05:00

Forschung

Low‑Rank-Kompression für Mixture-of-Experts: Bandbreite optimiert

Die neueste Forschung präsentiert eine bahnbrechende Methode, die die Bandbreite von Mixture-of-Experts (MoE) Modellen drastisch reduziert…

arXiv – cs.LG 22.12.2025 05:00

Forschung

MixtureKit: Neues Open-Source-Framework für modulare Mixture-of-Experts-Modelle

Mit MixtureKit erhält die Forschung ein vielseitiges, quelloffenes Tool, das die Erstellung, das Training und die Analyse von Mixture-of-Ex…

arXiv – cs.LG 16.12.2025 05:00

Forschung

Neues Diffusionsmodell verbessert medizinische Zeitreihenrekonstruktion

Wissenschaftler haben ein innovatives Modell entwickelt, das die Rekonstruktion und Imputation von physiologischen Zeitreihen revolutionier…

arXiv – cs.LG 10.12.2025 05:00

Finde Modelle, Firmen und Themen

Neues Training für MoE-Modelle: Experten lernen sich zu spezialisieren

Soft-MoE: Robustere Exploration in der gerichteten Controller‑Synthese

GrMoE: Neue Routing‑Methode für Mixture‑of‑Experts mit kontrollierter Sparsität

Neues Mixture-of-Experts-Modell verbessert Agentic RL durch Phasenorientierung

Arcee präsentiert Trinity Large: 400 Billionen Parameter, neue MoE-Strategie

SD-MoE: Spektrale Trennung steigert Experten-Spezialisierung in Sprachmodellen

Multi-Head Attention verursacht Vergessens bei MoE-Transformern – Lösung reduziert Rückfall

MELINOE: Durch Feintuning werden MoE-Modelle speichereffizienter

MalMoE: Mixture-of-Experts erkennt verschlüsselten Malware-Verkehr trotz Graph‑Drift

MoE-LLM-Kompression durch Routing-Frequenz und Informationsdichte

XShare: Schnellere MoE-Inferenz durch kollaborative Expertenauswahl

HyPER: Dynamische Pfadoptimierung steigert LLM-Logik bei geringem Rechenaufwand

MoSE: Flexibles Mixture-of-Experts-Modell steigert Effizienz von Sprachmodellen

SpecMD: Benchmark-Studie enthüllt neue Caching-Strategien für MoE-Modelle

Test-Time Mixture of World Models verbessert Anpassungsfähigkeit von Agents

Mixture-of-Experts: Hyperparameter-Transfer für skalierbare Transformer

LLEP: Schnellere, Speicherfreundlichere MoE-Modelle dank dynamischer Lastverteilung

FlashMoE: SSD-Cache für Mixture-of-Experts auf Edge-Geräten optimiert

GRIP: Geometrische Routerbeschränkung für Unlearning bei Mixture-of-Experts

N-Way Self-Evaluating Deliberation: Neue Architektur vereint heterogene Agenten

Effizienzsteigerung bei Mixture-of-Experts durch Gewicht- und Daten‑Sparsity

EMoE: Eigenbasis‑gesteuerte Routenführung für Mixture-of-Experts

Selbstaugmentierte Mixture-of-Experts revolutioniert QoS-Vorhersagen

DeepSeek präsentiert Engram: Konditionale Speicherachse für sparsames LLM

Monkey Jump: Effizientes Multi-Task-Lernen ohne zusätzliche Parameter

Kompression als Routing: Rekonstruktionsfehler Signal für modulare Sprachmodelle

Low‑Rank-Kompression für Mixture-of-Experts: Bandbreite optimiert

MixtureKit: Neues Open-Source-Framework für modulare Mixture-of-Experts-Modelle

Neues Diffusionsmodell verbessert medizinische Zeitreihenrekonstruktion

🍪 Cookie-Einstellungen

Arcee präsentiert Trinity Large: 400 Billionen Parameter, neue MoE-Strategie