Microsoft präsentiert VibeVoice-Realtime: Text‑zu‑Sprache mit Streaming‑Input

MarkTechPost Original ≈1 Min. Lesezeit
Anzeige

Microsoft hat das neue Modell VibeVoice-Realtime‑0.5B vorgestellt, das Echtzeit‑Text‑zu‑Sprache mit Streaming‑Input ermöglicht.

Das Modell kann bereits nach etwa 300 ms mit der Sprachausgabe beginnen, was besonders wichtig ist, wenn ein Sprachmodell noch weiter Text generiert.

VibeVoice‑Realtime ist ideal für Agenten‑Anwendungen und Live‑Narrationen von Daten, da es lange Sprachsequenzen zuverlässig erzeugt.

Microsoft betont, dass das Modell leichtgewichtig ist und sich nahtlos in bestehende Systeme integrieren lässt.

Ähnliche Artikel