Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Intuit”
Forschung

<p>Neues Verfahren: Dual-Granularitäts-Contrastive Reward erhöht Effizienz von Embodied RL</p> <p>In der Welt des Reinforcement Learning (RL) gilt die Gestaltung geeigneter Belohnungen als entscheidende Herausforderung, besonders bei körperlich gesteuerten Manipulationsaufgaben. Traditionelle Trajektorien-Erfolgsbelohnungen sind zwar intuitiv, doch ihre starke Sparsamkeit hemmt die Sample‑Effizienz von RL-Algorithmen. Aktuelle Ansätze, die auf dichte Belohnungen setzen, benötigen häufig umfangreiche, von Me

arXiv – cs.LG
Forschung

<h1>Dimensionalität als Vorteil beim LLM-Feintuning: Varianz‑Kurvature‑Ansatz</h1> <p>Eine neue Untersuchung zeigt, dass Evolution‑Strategies (ES) mit nur wenigen Populationen – etwa 30 – riesige Sprachmodelle mit Milliarden Parametern feinjustieren können. Dieses Ergebnis widerspricht der klassischen Intuition, dass die Dimensionalität die Effizienz von zeroth‑Order‑Methoden stark einschränkt.</p> <p>Darüber hinaus wurde ein zweites Phänomen beobachtet: Unter festen Hyperparametern steigt der Trainingsrewa

arXiv – cs.LG