Neue Methode R4 verbessert Reward Learning mit Ranking‑MSE

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der Welt des Reinforcement Learning bleibt die Gestaltung von Belohnungen ein entscheidendes Hindernis, wenn es darum geht, Algorithmen in der Praxis einzusetzen. Statt Belohnungsfunktionen manuell zu definieren, gewinnt die Lernmethode, bei der menschliches Feedback genutzt wird, immer mehr an Bedeutung. Die neu vorgestellte Technik, Ranked Return Regression for RL (R4), nutzt dafür Bewertungen – also Rangordnungen – statt der üblichen binären Präferenzen.

R4 arbeitet mit einem innovativen Ranking‑Mean‑Squared‑Error (rMSE) Verlust. Dabei werden Trajektorien, die jeweils mit einer diskreten Bewertung wie „schlecht“, „neutral“ oder „gut“ versehen sind, in einem Trainingsschritt gesammelt, ihre erwarteten Rückgaben vorhergesagt und anschließend mithilfe eines differenzierbaren Sortieroperators (soft ranks) geordnet. Der Verlust entsteht aus dem quadratischen Unterschied zwischen diesen weichen Rängen und den von Lehrern vorgegebenen Bewertungen.

Im Gegensatz zu früheren Ansätzen bietet R4 formale Garantien: Unter milden Annahmen ist die Lösungsmenge minimal und vollständig. In Simulationen mit künstlichem menschlichem Feedback hat sich gezeigt, dass R4 bestehende Bewertungs- und Präferenz-basierte Methoden auf Robotik‑Laufbenchmark‑Sätzen der OpenAI Gym‑ und DeepMind‑Control‑Suite gleichwertig oder sogar besser abschneidet – und das mit deutlich weniger Feedback.

Ähnliche Artikel