Robuste Offline-Imitation: Balance-Equation-basierte Lösung für dynamische Umgebungen
Imitation Learning (IL) hat sich als äußerst wirkungsvoll für Robotik- und Steuerungsaufgaben erwiesen, wenn die manuelle Gestaltung von Belohnungsfunktionen oder expliziten Reglern nicht praktikabel ist. In der Praxis wird jedoch häufig angenommen, dass die Umgebungsdynamik zwischen Training und Einsatz unverändert bleibt – eine Annahme, die selten zutrifft. Modellierungsfehler, reale Parameteränderungen und sogar gezielte Störungen können die Übergangsdynamik verschieben und dadurch die Leistung stark beeinträchtigen.