Whisper-Model: Layer Attention & Knowledge Distillation senken Halluzinationen
Das Whisper‑Modell, ein Open‑Source-System für automatische Spracherkennung, ist wegen seiner starken Leistung in multilingualen und Zero‑Shot‑Umgebungen weltweit beliebt. Doch bei lauten Aufnahmen treten häufig Halluzinationen auf – das Modell erzeugt falsche Wörter, die nicht im Originalton vorkommen.
Frühere Ansätze zur Reduktion dieser Fehler konzentrierten sich meist auf Audio‑Vorverarbeitung oder auf Nachbearbeitung der Transkriptionen. Änderungen am Whisper‑Modell selbst wurden bislang kaum untersucht.
Die neue Studie präsentiert eine zweistufige Architektur, die zunächst die Encoder‑Robustheit mit Adaptive Layer Attention (ALA) stärkt und anschließend Halluzinationen durch ein mehrzieliges Knowledge‑Distillation‑Framework (KD) unterdrückt.
ALA gruppiert die Encoder‑Schichten in semantisch zusammenhängende Blöcke, indem die Inter‑Layer‑Korrelation analysiert wird. Ein lernbarer Multi‑Head‑Attention‑Modul fusioniert diese Block‑Repräsentationen, sodass das Modell gleichzeitig niedrige und hohe Feature‑Ebene nutzt und so eine robustere Kodierung erzielt.
Im zweiten Schritt wird das Student‑Modell mit verrauschten Audiodaten trainiert, wobei seine semantischen und attention‑Verteilungen an die eines Teacher‑Modells angepasst werden, das mit sauberen Aufnahmen arbeitet. Dadurch lernt das Modell, die gleichen Aufmerksamkeitspattern zu erzeugen, die bei klaren Audios auftreten.
Experimentelle Ergebnisse auf Benchmark‑Datensätzen mit lauten Sprachaufnahmen zeigen deutliche Reduktionen von Halluzinationen und Wortfehlerraten, während die Leistung bei klaren Audios unverändert bleibt.
Insgesamt bieten ALA und KD einen systematischen Ansatz, um Whisper unter realen, lauten Bedingungen zuverlässiger zu machen und die Genauigkeit der Spracherkennung nachhaltig zu erhöhen.