DSFlow: Neue Architektur für schnelle, effiziente Sprachsynthese

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Flow‑Matching‑Modelle haben die Qualität der Text‑zu‑Sprache‑Synthese revolutioniert, doch ihr iteratives Sampling während der Inferenz verursacht enorme Rechenkosten. Traditionelle Distillationsmethoden reduzieren zwar die Anzahl der Schritte, leiden aber häufig unter Prozessvariabilität, weil Fehler am Endpunkt akkumulieren. Zudem führen die kontinuierlichen Zeitarchitekturen zu strukturellen Parameterineffizienzen, wenn sie für diskrete, feste Schrittzahlen eingesetzt werden.

DSFlow präsentiert einen modularen Distillationsrahmen, der speziell für wenige und sogar einen einzigen Schritt entwickelt wurde. Dabei wird die Generierung als diskrete Vorhersageaufgabe neu formuliert und das Student‑Modell gezielt an die gewünschte Inferenzumgebung angepasst.

Ein zentrales Merkmal ist die Dual‑Supervision: Sie kombiniert das klassische Endpunkt‑Matching mit einer deterministischen Mittelgeschwindigkeits‑Ausrichtung. Diese Kombination erzwingt konsistente Generierungs­trajektorien über alle Inferenzschritte hinweg und erhöht die Trainingsstabilität erheblich.

Zur Steigerung der Parameter‑Effizienz ersetzt DSFlow die kontinuierliche Zeitschritt‑Bedingung durch leichte, schritt‑bewusste Tokens. Dadurch passt sich die Modellkapazität exakt an den stark reduzierten Zeitschritt‑Raum der diskreten Aufgabe an.

Umfangreiche Experimente an verschiedenen Flow‑basierten TTS‑Architekturen zeigen, dass DSFlow die Standard‑Distillation konsequent übertrifft. Es liefert herausragende Ergebnisse bei wenigen und sogar bei einem einzigen Schritt, reduziert gleichzeitig die Modellgröße und senkt die Inferenzkosten signifikant.

Ähnliche Artikel