ReCouPLe: Sprachbasierte Rationalisierung verbessert robuste Belohnungslernen

In der Welt des maschinellen Lernens ist das Belohnungslernen, das auf Nutzerpräferenzen basiert, ein zentrales Werkzeug, um Agenten so zu steuern, dass sie menschliche Wünsche erfüllen. Doch die üblicherweise eingesetzte binäre Rückmeldung ist extrem spärlich und führt häufig zu „kausaler Verwirrung“ – das Modell lernt, auf zufällige Merkmale zu achten, die nur zufällig mit den gewünschten Handlungen korrelieren. Diese Fehler zeigen sich besonders stark, wenn die Trainingsumgebung von der Testumgebung abweicht.

ReCouPLe, ein leichtgewichtiges Framework, löst dieses Problem, indem es natürliche Sprachrationalisierungen nutzt. Jede Begründung wird als „Projektionsachse“ in einem Einbettungsraum interpretiert, wodurch das Modell lernt, Trajektorien anhand von Merkmalen zu bewerten, die mit dieser Achse ausgerichtet sind, und gleichzeitig kontextuelle Informationen zu ignorieren, die nicht zur angegebenen Begründung passen.

Ein großer Vorteil von ReCouPLe ist die Wiederverwendbarkeit derselben Rationalisierungen über verschiedene Aufgaben hinweg. Wenn mehrere Aufgaben dieselbe semantische Bedeutung teilen – etwa „Kollisionen vermeiden“ oder „Aufgabe schneller abschließen“ – kann das Modell dieselbe kausale Richtung nutzen und so Präferenzwissen ohne zusätzliche Daten oder Feinabstimmung von Sprachmodellen auf neue Aufgaben übertragen.

Das Ergebnis ist ein Belohnungsmodell, das Präferenzen direkt auf die formulierte Begründung zurückführt, besser mit der Intention des Nutzers übereinstimmt und über zufällige Merkmale hinaus generalisiert. In Experimenten übertrifft ReCouPLe bestehende Ansätze um bis zu 1,5‑mal höhere Belohnungsgenauigkeit bei Verteilungsverschiebungen und um das Doppelte bei der Leistung von Nachfolgepolicies in neuen Aufgaben.

Der Quellcode ist öffentlich verfügbar unter https://github.com/mj-hwang/ReCouPLe.

Ähnliche Artikel

🍪 Cookie-Einstellungen