Suchbasierte Kreditzuweisung verbessert Offline‑Lernen mit Präferenzfeedback

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Im Bereich des Offline‑Reinforcement Learning werden Agenten aus festen Datensätzen trainiert, ohne dass weitere Interaktionen mit der Umgebung nötig sind. Dabei stützt sich die klassische Methode häufig auf präzise Belohnungsfunktionen, die jedoch schwer zu entwerfen und kostenintensiv sind. Eine vielversprechende Alternative ist die Nutzung menschlichen Feedbacks, das in zwei Hauptformen vorliegt: Experten­demonstrationen und Präferenzen.

Demonstrationen liefern Schritt‑für‑Schritt‑Anweisungen, sind jedoch teuer zu sammeln und spiegeln oft nur begrenzte Expert*innen‑Verhaltensmuster wider. Präferenzen dagegen lassen sich leichter erfassen, doch bleibt unklar, welche Teile eines Verhaltens für einen bestimmten Trajektorienabschnitt am wichtigsten sind – ein Problem, das die Kreditzuweisung erschwert.

Die neue Methode, Search‑Based Preference Weighting (SPW), verbindet beide Feedback‑Quellen. Für jede Transition in einer mit Präferenzen beschrifteten Trajektorie sucht SPW die ähnlichsten State‑Action‑Paare aus den Experten­demonstrationen und ermittelt daraus Schritt‑weise Gewichtungen basierend auf den Ähnlichkeitswerten. Diese Gewichtungen steuern anschließend das Präferenz‑Learning und ermöglichen eine präzisere Kreditzuweisung, die herkömmliche Ansätze nicht erreichen.

In Experimenten mit anspruchsvollen Robotik‑Manipulationsaufgaben hat SPW gezeigt, dass die Kombination aus Präferenzen und Demonstrationen die Leistung deutlich steigert und bestehende Methoden übertrifft. Damit eröffnet die Technik einen vielversprechenden Weg, Offline‑RL effizienter und benutzerfreundlicher zu gestalten.

Ähnliche Artikel