S-MoE steigert ASR & ST um 6,35 %: Effizientes Multi-Task Speech‑to‑Text

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In der aktuellen Forschung wird das klassische Hard‑Parameter‑Sharing oft als Hemmschuh für die Leistung mehrerer Aufgaben angesehen, da es zu Interferenzen zwischen den Modellen führt. Um dieses Problem zu lösen, wurde ein neues Verfahren namens Supervised Mixture of Experts (S‑MoE) vorgestellt. Im Gegensatz zu herkömmlichen Mixture‑of‑Experts‑Modellen benötigt S‑MoE keine aufwändigen Gating‑Funktionen; stattdessen werden spezielle Leit‑Tokens eingesetzt, die jede Aufgabe gezielt an ihren jeweiligen Experten weiterleiten.

Durch die Zuweisung jeder Aufgabe an ein separates Feed‑Forward‑Netzwerk überwindet S‑MoE die Einschränkungen des Hard‑Sharing. Das Verfahren wurde auf ein Speech‑to‑Text‑Modell angewendet, das gleichzeitig automatische Spracherkennung (ASR) und Sprachübersetzung (ST) verarbeitet. Dabei kann das Modell Eingaben mit unterschiedlichen Bandbreiten verarbeiten und die beiden Aufgaben gleichzeitig ausführen.

Die experimentellen Ergebnisse zeigen, dass die Anwendung von S‑MoE sowohl im Encoder als auch im Decoder zu einer relativen Verbesserung der Wortfehlerrate um 6,35 % führt. Damit demonstriert die Methode ihre Wirksamkeit und eröffnet neue Perspektiven für die effiziente Modellierung mehrerer Sprachaufgaben in einem einzigen System.

Ähnliche Artikel