Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Guidance”
Forschung

<h1>Diffusionsmodelle können formale Syntax einhalten – neue Methode</h1> <p>Diffusionsbasierte Sprachmodelle gelten als vielversprechende Alternative zu autoregressiven Systemen, weil sie Texte global und ohne kausale Abhängigkeiten erzeugen. Ihre kontinuierlichen latenten Zustände machen jedoch die Durchsetzung diskreter Vorgaben – etwa das Erzeugen eines JSON‑Dokuments, das einem vorgegebenen Schema entspricht – schwierig.</p> <p>Die neue, trainingsfreie Guidance‑Methode löst dieses Problem, indem sie ei

arXiv – cs.LG
Forschung

<p>Neues Verfahren: Dual-Granularitäts-Contrastive Reward erhöht Effizienz von Embodied RL</p> <p>In der Welt des Reinforcement Learning (RL) gilt die Gestaltung geeigneter Belohnungen als entscheidende Herausforderung, besonders bei körperlich gesteuerten Manipulationsaufgaben. Traditionelle Trajektorien-Erfolgsbelohnungen sind zwar intuitiv, doch ihre starke Sparsamkeit hemmt die Sample‑Effizienz von RL-Algorithmen. Aktuelle Ansätze, die auf dichte Belohnungen setzen, benötigen häufig umfangreiche, von Me

arXiv – cs.LG
Forschung

<h1>KI-Modell für UAV-Steuerung: Hybrid-Distillation mit Chain-of-Thought</h1> <p>Mit dem rasanten Fortschritt großer Sprachmodelle im Code‑Generierungsbereich steht nun die Herausforderung im Vordergrund, diese Fähigkeiten auf ressourcenbeschränkte Drohnen zu übertragen. Ein neues Verfahren kombiniert gezielte Wissensdistillation, Chain‑of‑Thought‑Guidance und supervised fine‑tuning, um die komplexen Denkprozesse in kompakte Modelle zu verlagern.</p> <p>Im Kern steht ein sorgfältig erstelltes Datenset, das

arXiv – cs.AI