Robuste Offline-Imitation: Balance-Equation-basierte Lösung für dynamische Umgebungen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Imitation Learning (IL) hat sich als äußerst wirkungsvoll für Robotik- und Steuerungsaufgaben erwiesen, wenn die manuelle Gestaltung von Belohnungsfunktionen oder expliziten Reglern nicht praktikabel ist. In der Praxis wird jedoch häufig angenommen, dass die Umgebungsdynamik zwischen Training und Einsatz unverändert bleibt – eine Annahme, die selten zutrifft. Modellierungsfehler, reale Parameteränderungen und sogar gezielte Störungen können die Übergangsdynamik verschieben und dadurch die Leistung stark beeinträchtigen.

Um diesem Problem zu begegnen, präsentiert die neue Arbeit einen Balance-Equation-basierten Ansatz für distributionally robustes Offline-Imitation Learning. Der Rahmen lernt robuste Politiken ausschließlich aus Expertendemonstrationen, die unter nominalen Dynamiken gesammelt wurden, ohne weitere Interaktion mit der Umgebung. Das Problem wird als distributionally robustes Optimierungsproblem über eine Unsicherheitssumme von Übergangsmodellen formuliert, wobei die Politik den Imitationsverlust unter der schlechtesten möglichen Übergangsverteilung minimiert. Durch eine elegante Umformulierung lässt sich die robuste Zielfunktion vollständig in Bezug auf die nominale Datenverteilung darstellen, was eine tractable Offline-Lösung ermöglicht.

Experimentelle Tests an kontinuierlichen Kontrollbenchmarks zeigen, dass der Ansatz im Vergleich zu führenden Offline-IL-Baselines eine deutlich höhere Robustheit und Generalisierung aufweist, insbesondere in verschobenen oder gestörten Umgebungen. Diese Ergebnisse unterstreichen das Potenzial der Balance-Equation-Methode, die Zuverlässigkeit von Imitation Learning in realen, dynamischen Szenarien nachhaltig zu verbessern.

Ähnliche Artikel