Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “DANCE”
Forschung

<h1>Diffusionsmodelle können formale Syntax einhalten – neue Methode</h1> <p>Diffusionsbasierte Sprachmodelle gelten als vielversprechende Alternative zu autoregressiven Systemen, weil sie Texte global und ohne kausale Abhängigkeiten erzeugen. Ihre kontinuierlichen latenten Zustände machen jedoch die Durchsetzung diskreter Vorgaben – etwa das Erzeugen eines JSON‑Dokuments, das einem vorgegebenen Schema entspricht – schwierig.</p> <p>Die neue, trainingsfreie Guidance‑Methode löst dieses Problem, indem sie ei

arXiv – cs.LG
Forschung

<p>Neues Verfahren: Dual-Granularitäts-Contrastive Reward erhöht Effizienz von Embodied RL</p> <p>In der Welt des Reinforcement Learning (RL) gilt die Gestaltung geeigneter Belohnungen als entscheidende Herausforderung, besonders bei körperlich gesteuerten Manipulationsaufgaben. Traditionelle Trajektorien-Erfolgsbelohnungen sind zwar intuitiv, doch ihre starke Sparsamkeit hemmt die Sample‑Effizienz von RL-Algorithmen. Aktuelle Ansätze, die auf dichte Belohnungen setzen, benötigen häufig umfangreiche, von Me

arXiv – cs.LG