Transsion präsentiert 3‑Stufen‑ASR‑System: 9,83 % Fehlerquote in 11 Sprachen
Anzeige
Transsion hat ein neues mehrsprachiges ASR‑System vorgestellt, das im Track 1 der MLC‑SLM 2025‑Challenge eingesetzt wurde.
Das System kombiniert drei zentrale Bausteine: einen festgelagerten Whisper‑large‑v3‑Encoder, einen lernbaren Adaptor mit Linear‑ReLU‑Linear‑Transformationen zur Ausrichtung von Sprach‑ und Textrepräsentationen und ein frozen Qwen2.5‑7B‑Instruct‑LLM, das mit LoRA‑Modulen für die kontextuelle Sprachdekodierung optimiert wurde.
Durch die Kombination von vortrainierten Modellen und gezieltem Feintuning erreichte das System eine Wort‑/Zeichen‑Fehlerquote von 9,83 % über 11 Sprachen und belegte den dritten Platz unter allen Teilnehmern.
Ähnliche Artikel
arXiv – cs.AI
•
S3LoRA: Sicherheitsoptimiertes LoRA‑Pruning für Agenten‑Planer
arXiv – cs.LG
•
Bayessches Meta-Learning verbessert LoRA-Feinabstimmung großer Sprachmodelle
arXiv – cs.AI
•
Code‑Formatierung: Der stille Kostenfaktor für LLMs
arXiv – cs.AI
•
LLMs im Fokus: Neue Schutzmaßnahmen verhindern Datenmemorierung bei Feintuning
arXiv – cs.LG
•
Naive LoRA‑Summation: Orthogonalität nutzt effizientes Modulare Lernen
arXiv – cs.LG
•
VARAN revolutioniert das Feintuning selbstlernender Sprachmodelle