Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Actor-Critic”
Forschung

<h1>Hindsight Preference Replay steigert Multi-Objective RL mit CAPQL</h1> <p>In einem neuen Beitrag auf arXiv wird gezeigt, wie die Methode Hindsight Preference Replay (HPR) die Leistung von CAPQL, einem Präferenz-basierten Actor-Critic-Ansatz, in Multi-Objective Reinforcement Learning (MORL) deutlich verbessert. CAPQL nutzt Gewichtungsvektoren, um Agenten auf vektorielle Belohnungen zu optimieren, beschränkt jedoch die Nutzung von Daten auf die Präferenzen, unter denen sie gesammelt wurden. HPR ergänzt di

arXiv – cs.LG