Bayesian-MoE: Neue Unsicherheitsabschätzung für große Sprachmodelle
Ein neues Verfahren namens Bayesian-MoE liefert für feinabgestimmte große Sprachmodelle (LLMs) eine robuste Unsicherheitsabschätzung, ohne das ursprüngliche Training zu verändern oder zusätzliche Parameter einzuführen…
- Ein neues Verfahren namens Bayesian-MoE liefert für feinabgestimmte große Sprachmodelle (LLMs) eine robuste Unsicherheitsabschätzung, ohne das ursprüngliche Training zu…
- Bayesian-MoE nutzt eine strukturierte Laplace‑Approximation auf die zweite lineare Schicht jedes Experten in Mixture-of-Experts (MoE)-Architekturen.
- Durch die direkte Anwendung auf die bereits vorhandenen Expertpfade kann das Modell die Posterior-Verteilung blockweise schätzen, ohne auf zusätzliche Adaptermodule ange…
Ein neues Verfahren namens Bayesian-MoE liefert für feinabgestimmte große Sprachmodelle (LLMs) eine robuste Unsicherheitsabschätzung, ohne das ursprüngliche Training zu verändern oder zusätzliche Parameter einzuführen.
Bayesian-MoE nutzt eine strukturierte Laplace‑Approximation auf die zweite lineare Schicht jedes Experten in Mixture-of-Experts (MoE)-Architekturen. Durch die direkte Anwendung auf die bereits vorhandenen Expertpfade kann das Modell die Posterior-Verteilung blockweise schätzen, ohne auf zusätzliche Adaptermodule angewiesen zu sein.
Zur Modellierung der Krümmung werden Kronecker-faktorierte Low‑Rank‑Approximationen eingesetzt, die skalierbare Schätzungen der Vorhersageunsicherheit und der marginalen Likelihood ermöglichen. In Tests mit Qwen1.5‑MoE und DeepSeek‑MoE zeigen sich signifikante Verbesserungen bei der erwarteten Kalibrierungsfehler (ECE) und der negativen Log‑Likelihood (NLL) im Vergleich zu herkömmlichen Baselines.
Die Ergebnisse bestätigen, dass Bayesian-MoE eine zuverlässige Grundlage für Entscheidungen in Anwendungen mit großen Sprachmodellen bietet und die Integration von Unsicherheitsmaßen in bestehende MoE‑Systeme erleichtert.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.