NVIDIA präsentiert Nemotron Speech ASR: Spracherkennung für geringe Latenz
NVIDIA hat sein neuestes Streaming‑Transkriptionsmodell „Nemotron Speech ASR“ vorgestellt, das speziell für Anwendungen mit niedriger Latenz wie Sprachagenten und Live-Untertitelungen entwickelt wurde. Das Modell ist als Open‑Source‑Checkpoint nvidia/nemotron-speech-streaming-en-0.6b auf Hugging Face verfügbar und richtet sich an Entwickler, die Echtzeit‑Spracherkennung auf modernen NVIDIA‑GPUs einsetzen wollen.
Die Architektur kombiniert einen cache‑bewussten FastConformer‑Encoder mit einem RNNT‑Decoder. Diese Kombination ermöglicht effiziente Streaming‑ und Batch‑Verarbeitungen, ohne die Rechenleistung zu überstrapazieren. Durch die Optimierung für NVIDIA‑Hardware erzielt Nemotron Speech ASR eine besonders niedrige Latenz und hohe Genauigkeit bei englischer Sprache.
Mit der Veröffentlichung betont NVIDIA, dass das Modell von Grund auf für Echtzeit‑Spracherkennung konzipiert wurde. Entwickler können das Modell sofort in ihre Projekte integrieren, sei es für virtuelle Assistenten, interaktive Chatbots oder Live‑Captioning‑Systeme, und profitieren von einer offenen, leicht anpassbaren Lösung.