Transsion präsentiert 3‑Stufen‑ASR‑System: 9,83 % Fehlerquote in 11 Sprachen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Transsion hat ein neues mehrsprachiges ASR‑System vorgestellt, das im Track 1 der MLC‑SLM 2025‑Challenge eingesetzt wurde.

Das System kombiniert drei zentrale Bausteine: einen festgelagerten Whisper‑large‑v3‑Encoder, einen lernbaren Adaptor mit Linear‑ReLU‑Linear‑Transformationen zur Ausrichtung von Sprach‑ und Textrepräsentationen und ein frozen Qwen2.5‑7B‑Instruct‑LLM, das mit LoRA‑Modulen für die kontextuelle Sprachdekodierung optimiert wurde.

Durch die Kombination von vortrainierten Modellen und gezieltem Feintuning erreichte das System eine Wort‑/Zeichen‑Fehlerquote von 9,83 % über 11 Sprachen und belegte den dritten Platz unter allen Teilnehmern.

Ähnliche Artikel