StepFun AI präsentiert Step‑Audio‑R1: Audio‑LLM mit Testzeit‑Computing‑Skalierung
Anzeige
Aktuelle Audio‑KI‑Modelle zeigen häufig schlechtere Ergebnisse, wenn sie längere Gedankengänge generieren, anstatt ihre Entscheidungen direkt auf dem Klang zu basieren. Das Forschungsteam von StepFun hat nun Step‑Audio‑R1 vorgestellt – ein neues Audio‑LLM, das speziell für die Skalierung bei Testzeit‑Computing entwickelt wurde. Durch gezielte Optimierungen demonstriert Step‑Audio‑R1, dass der Genauigkeitsverlust bei längeren „Chain‑of‑Thought“-Antworten nicht mehr auftritt, sondern die KI ihre Analyse stärker an den eigentlichen Audiodaten ausrichtet.
Ähnliche Artikel
arXiv – cs.AI
•
Evaluating the Safety and Skill Reasoning of Large Reasoning Models Under Compute Constraints
arXiv – cs.AI
•
Kausale Stärken & Überzeugungen: LLM‑Schlussfolgerungen mit Netzen
arXiv – cs.AI
•
Rückwärtsdenken steigert LLMs bei fehlenden Infos
arXiv – cs.AI
•
CRM: Region-Masking zeigt, wie multimodale LLMs visuelle Infos nutzen
arXiv – cs.AI
•
SkipKV: Effiziente KV-Kompression für große Rechenmodelle
arXiv – cs.AI
•
XR-DT: Digitaler Zwilling mit Extended Reality für autonome mobile Roboter