DSFlow: Neue Architektur für schnelle, effiziente Sprachsynthese
Flow‑Matching‑Modelle haben die Qualität der Text‑zu‑Sprache‑Synthese revolutioniert, doch ihr iteratives Sampling während der Inferenz verursacht enorme Rechenkosten. Traditionelle Distillationsmethoden reduzieren zwar die Anzahl der Schritte, leiden aber häufig unter Prozessvariabilität, weil Fehler am Endpunkt akkumulieren. Zudem führen die kontinuierlichen Zeitarchitekturen zu strukturellen Parameterineffizienzen, wenn sie für diskrete, feste Schrittzahlen eingesetzt werden.