Bayesian-MoE: Neue Unsicherheitsabschätzung für große Sprachmodelle

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Ein neues Verfahren namens Bayesian-MoE liefert für feinabgestimmte große Sprachmodelle (LLMs) eine robuste Unsicherheitsabschätzung, ohne das ursprüngliche Training zu verändern oder zusätzliche Parameter einzuführen.

Bayesian-MoE nutzt eine strukturierte Laplace‑Approximation auf die zweite lineare Schicht jedes Experten in Mixture-of-Experts (MoE)-Architekturen. Durch die direkte Anwendung auf die bereits vorhandenen Expertpfade kann das Modell die Posterior-Verteilung blockweise schätzen, ohne auf zusätzliche Adaptermodule angewiesen zu sein.

Zur Modellierung der Krümmung werden Kronecker-faktorierte Low‑Rank‑Approximationen eingesetzt, die skalierbare Schätzungen der Vorhersageunsicherheit und der marginalen Likelihood ermöglichen. In Tests mit Qwen1.5‑MoE und DeepSeek‑MoE zeigen sich signifikante Verbesserungen bei der erwarteten Kalibrierungsfehler (ECE) und der negativen Log‑Likelihood (NLL) im Vergleich zu herkömmlichen Baselines.

Die Ergebnisse bestätigen, dass Bayesian-MoE eine zuverlässige Grundlage für Entscheidungen in Anwendungen mit großen Sprachmodellen bietet und die Integration von Unsicherheitsmaßen in bestehende MoE‑Systeme erleichtert.

Ähnliche Artikel