BiCQL-ML: Bi-Level-Framework verbessert Offline-IRL ohne Policy-Lernen
Ein neuer Ansatz namens BiCQL-ML verspricht, die Offline-Inverse-Reinforcement-Learning (IRL)-Forschung auf ein neues Level zu heben. Dabei wird die klassische Herausforderung, aus statischen Demonstrationsdaten eine sinnvolle Belohnungsfunktion abzuleiten, ohne zusätzliche Online-Interaktion zu lösen. BiCQL-ML arbeitet ohne explizite Policy-Lernschritte und nutzt stattdessen ein bi‑level‑Framework, das gleichzeitig eine konservative Q‑Funktion und die Belohnungsparameter optimiert.