Suche Anmelden

Forschung arXiv – cs.AI

Einheitliches Sprachmodell: Autoregressive Transformer für TTS, ASR und VC

19.01.2026 05:00 • ≈1 Min. Lesezeit • Originalquelle

#General-Purpose Audio #Text‑zu‑Sprache #Automatische Spracherkennung #Sprachumwandlung #autoregressiver Transformer #Multi‑Task‑Training #Edge‑Geräte

Kernaussagen

Das nimmst du aus dem Beitrag mit

Ein neues Forschungsprojekt präsentiert General-Purpose Audio (GPA), ein einheitliches Audio‑Fundamentmodell, das Text‑zu‑Sprache (TTS), automatische Spracherkennung (AS…
Durch die Nutzung eines gemeinsamen diskreten Audio‑Token‑Raums und einer auf Anweisungen basierenden Aufgabeninduzierten Steuerung kann GPA flexibel alle drei Kernaufga…
Die Entwickler kombinieren eine vollständig autoregressive Token‑Sequenzierung mit einer gemeinsamen Multi‑Task‑Trainingsstrategie, die die Leistungsfähigkeit über versc…

Ein neues Forschungsprojekt präsentiert General-Purpose Audio (GPA), ein einheitliches Audio‑Fundamentmodell, das Text‑zu‑Sprache (TTS), automatische Spracherkennung (ASR) und Sprachumwandlung (VC) in einer einzigen, autoregressiven Transformer‑Architektur vereint. Durch die Nutzung eines gemeinsamen diskreten Audio‑Token‑Raums und einer auf Anweisungen basierenden Aufgabeninduzierten Steuerung kann GPA flexibel alle drei Kernaufgaben ausführen, ohne dass die Architektur angepasst werden muss.

Die Entwickler kombinieren eine vollständig autoregressive Token‑Sequenzierung mit einer gemeinsamen Multi‑Task‑Trainingsstrategie, die die Leistungsfähigkeit über verschiedene Sprachdomänen hinweg optimiert. Gleichzeitig ermöglicht ein skalierbarer Inferenz‑Pipelining-Ansatz eine hohe Parallelität und Durchsatzrate, was die praktische Einsatzfähigkeit in Echtzeit‑Anwendungen stärkt.

GPA ist in mehreren Größen erhältlich, darunter ein leichtgewichtiges 0,3‑Billionen‑Parameter‑Modell, das speziell für Edge‑Geräte und ressourcenbeschränkte Umgebungen optimiert ist. Die Ergebnisse zeigen, dass ein einheitliches, autoregressives Modell nicht nur konkurrenzfähige Leistungen in allen drei Bereichen erzielt, sondern auch für niedrige Latenz und effiziente, skalierbare Bereitstellung geeignet ist.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?

Ist das eher Signal, Produkt oder nur kurzfristiger Hype?

Begriffe zum Einordnen

Kontext ohne Glossar-Suche

General-Purpose Audio

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Text‑zu‑Sprache

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Automatische Spracherkennung

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

arXiv – cs.AI

Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.

Lernpfad

Wenn du nach dieser Meldung weiterlernen willst

Themen-Hub

General-Purpose Audio systematisch verfolgen

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Archiv

Weitere Beispiele zu General-Purpose Audio

Nutze das Archiv, um Muster, Wiederholungen und Trendlinien innerhalb des Themas zu sehen.

Im Themen-Cluster weiter

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Themen-Hub

General-Purpose Audio

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

0 Signale in 7 Tagen • 1 Artikel im Hub

Hub oeffnen →

Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen

arXiv – cs.AI

Cadmus: Kostengünstiges System für kontrollierte Programmsynthese

11.02.2026 05:00

MarkTechPost

Agenten-Voice‑KI-Assistenten: Verstehen, Überlegen, Planen, Echtzeit‑Antworten

09.11.2025 04:22

arXiv – cs.LG

FAR-TS: Schnelle Zeitreihen-Generierung mit LLaMA-Style Autoregression

10.11.2025 05:00

arXiv – cs.LG

Neuer Ansatz reduziert Ungleichgewicht bei IoT-Daten im Online-Federated Learning

18.08.2025 05:00

MarkTechPost

Microsoft präsentiert VibeVoice-Realtime: Text‑zu‑Sprache mit Streaming‑Input

07.12.2025 05:28

arXiv – cs.LG

eMamba: Beschleunigungsframework für Mamba‑Modelle auf Edge‑Geräten

15.08.2025 05:00

Warum das wichtig ist

Relevant fuer Leserinnen und Leser, die KI nicht nur verfolgen, sondern einordnen wollen: Der Beitrag zeigt, was sich bei General-Purpose Audio, Text‑zu‑Sprache konkret verschiebt und welche Folgen das fuer Nutzung, Produkte oder Entscheidungen haben kann. Ausgangspunkt ist die Quelle arXiv – cs.AI.

Quellenklarheit

Quelle: arXiv – cs.AI
Original: Zum Ursprungsbeitrag
Website: arXiv – cs.AI

Themenradar

Themen folgen

General-Purpose Audio

Text‑zu‑Sprache

Automatische Spracherkennung

Sprachumwandlung

Morning Briefing

Diese Themen im Briefing verfolgen

Wenn dich genau diese Themen wieder interessieren werden, mach daraus einen festen Morgen-Slot statt einzelner Zufallsklicks.

Briefing mit Fokus konfigurieren →

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Aehnliche Entwicklungen zum Weiterlesen

🍪 Cookie-Einstellungen