Voxtral TTS: Mehrsprachige Sprachausgabe mit nur 3 Sekunden Referenz
Ein neues, hochmodernes Text‑zu‑Speech‑Modell namens Voxtral TTS wurde vorgestellt, das mit nur drei Sekunden Referenzaudio natürliche, ausdrucksstarke Stimmen erzeugen kann. Das System kombiniert eine autoregressive Ge…