LLM-basiertes PROF-Framework optimiert Belohnungsfunktionen für Offline-Imitation

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Ein neues Forschungsframework namens PROF nutzt große Sprachmodelle, um aus natürlichen Sprachbeschreibungen und einer einzigen Expertendemonstration ausführbare Belohnungsfunktionen zu generieren und zu verbessern. Dadurch können Offline-Imitation-Learning-Modelle ohne explizite Belohnungsannotationen trainiert werden.

Der Kern des Ansatzes ist die Reward Preference Ranking (RPR)-Methode, die die Qualität von Belohnungsfunktionen bewertet, ohne dass Umgebungsinteraktionen oder Reinforcement-Learning-Training erforderlich sind. RPR berechnet Dominanzwerte, die angeben, wie gut eine Belohnungsfunktion mit den Präferenzen des Experten übereinstimmt.

Durch abwechselndes Anwenden von RPR und textbasierten Gradientenoptimierungen automatisiert PROF die Auswahl und Verfeinerung optimaler Belohnungsfunktionen. Auf den D4RL-Datensätzen übertrifft oder erreicht das System aktuelle starke Baselines in vielen Bereichen, was die Wirksamkeit des Ansatzes unterstreicht.

Ähnliche Artikel