Transsion präsentiert 3‑Stufen‑ASR‑System: 9,83 % Fehlerquote in 11 Sprachen
Anzeige
Transsion hat ein neues mehrsprachiges ASR‑System vorgestellt, das im Track 1 der MLC‑SLM 2025‑Challenge eingesetzt wurde.
Das System kombiniert drei zentrale Bausteine: einen festgelagerten Whisper‑large‑v3‑Encoder, einen lernbaren Adaptor mit Linear‑ReLU‑Linear‑Transformationen zur Ausrichtung von Sprach‑ und Textrepräsentationen und ein frozen Qwen2.5‑7B‑Instruct‑LLM, das mit LoRA‑Modulen für die kontextuelle Sprachdekodierung optimiert wurde.
Durch die Kombination von vortrainierten Modellen und gezieltem Feintuning erreichte das System eine Wort‑/Zeichen‑Fehlerquote von 9,83 % über 11 Sprachen und belegte den dritten Platz unter allen Teilnehmern.
Ähnliche Artikel
VentureBeat – AI
•
Meta stellt 1.600‑Sprachen‑ASR-Modell vor – Open-Source-Revolution
MarkTechPost
•
TwinMind Introduces Ear-3 Model: A New Voice AI Model that Sets New Industry Records in Accuracy, Speaker Labeling, Languages and Price
arXiv – cs.AI
•
SpeechLLM: Unified Speech and Language Model for Enhanced Multi-Task Understanding in Low Resource Settings
AWS – Machine Learning Blog
•
Fine‑Tuning von VLMs: Dokumenten‑zu‑JSON mit SageMaker AI & SWIFT
arXiv – cs.AI
•
LLMs zeigen selbstbewusstes Verhalten – minimaler Ansatz mit LoRA
arXiv – cs.AI
•
Negative Embeddings statt Prompts: Effektiver Schutz für Text‑zu‑Bild‑Modelle