Einheitliches Sprachmodell: Autoregressive Transformer für TTS, ASR und VC
Ein neues Forschungsprojekt präsentiert General-Purpose Audio (GPA), ein einheitliches Audio‑Fundamentmodell, das Text‑zu‑Sprache (TTS), automatische Spracherkennung (ASR) und Sprachumwandlung (VC) in einer einzigen, autoregressiven Transformer‑Architektur vereint. Durch die Nutzung eines gemeinsamen diskreten Audio‑Token‑Raums und einer auf Anweisungen basierenden Aufgabeninduzierten Steuerung kann GPA flexibel alle drei Kernaufgaben ausführen, ohne dass die Architektur angepasst werden muss.
Die Entwickler kombinieren eine vollständig autoregressive Token‑Sequenzierung mit einer gemeinsamen Multi‑Task‑Trainingsstrategie, die die Leistungsfähigkeit über verschiedene Sprachdomänen hinweg optimiert. Gleichzeitig ermöglicht ein skalierbarer Inferenz‑Pipelining-Ansatz eine hohe Parallelität und Durchsatzrate, was die praktische Einsatzfähigkeit in Echtzeit‑Anwendungen stärkt.
GPA ist in mehreren Größen erhältlich, darunter ein leichtgewichtiges 0,3‑Billionen‑Parameter‑Modell, das speziell für Edge‑Geräte und ressourcenbeschränkte Umgebungen optimiert ist. Die Ergebnisse zeigen, dass ein einheitliches, autoregressives Modell nicht nur konkurrenzfähige Leistungen in allen drei Bereichen erzielt, sondern auch für niedrige Latenz und effiziente, skalierbare Bereitstellung geeignet ist.