BiCQL-ML: Bi-Level-Framework verbessert Offline-IRL ohne Policy-Lernen
Ein neuer Ansatz namens BiCQL-ML verspricht, die Offline-Inverse-Reinforcement-Learning (IRL)-Forschung auf ein neues Level zu heben. Dabei wird die klassische Herausforderung, aus statischen Demonstrationsdaten eine sinnvolle Belohnungsfunktion abzuleiten, ohne zusätzliche Online-Interaktion zu lösen. BiCQL-ML arbeitet ohne explizite Policy-Lernschritte und nutzt stattdessen ein bi‑level‑Framework, das gleichzeitig eine konservative Q‑Funktion und die Belohnungsparameter optimiert.
Der Algorithmus wechselt abwechselnd zwischen zwei Schritten: Erst wird eine konservative Q‑Funktion mit Conservative Q‑Learning (CQL) unter der aktuellen Belohnung geschätzt. Anschließend werden die Belohnungsparameter so angepasst, dass die erwarteten Q‑Werte der Expert-Aktionen maximiert und gleichzeitig die Übergeneralisation auf nicht beobachtete Aktionen unterdrückt werden. Dieser Prozess entspricht einer Maximum‑Likelihood‑Schätzung unter einer weichen Wertabgleich‑Prinzip.
Die Autoren liefern theoretische Beweise dafür, dass BiCQL-ML zu einer Belohnungsfunktion konvergiert, bei der die Expert-Policy soft‑optimal ist. In Experimenten auf etablierten Offline‑RL‑Benchmarks zeigt sich, dass BiCQL-ML sowohl die Belohnungsrekonstruktion als auch die Leistung von nachgelagerten Policies gegenüber bestehenden Offline‑IRL‑Baselines verbessert.