Microsoft präsentiert VibeVoice‑ASR: 60‑Minuten‑Audio in einem Durchgang
Microsoft hat das neue Modell VibeVoice‑ASR veröffentlicht, das als Teil der VibeVoice-Familie von Open‑Source-Sprach‑KI-Modellen dient. VibeVoice‑ASR ist ein einheitliches Spracherkennungsmodell, das 60‑Minuten‑Audio in einem einzigen Durchlauf verarbeiten und strukturierte Transkriptionen liefern kann, die Informationen zu Sprecher, Zeitpunkt und Inhalt enthalten. Das System unterstützt zudem die Eingabe von benutzerdefinierten Hotwords, sodass spezifische Schlüsselwörter erkannt und hervorgehoben werden können. Durch die Kombination von Effizienz und Genauigkeit bietet VibeVoice‑ASR eine leistungsstarke Lösung für die Verarbeitung langer Audioaufnahmen.