Neues Verfahren für Imitation Learning bei Messfehlern und Verteilungssprüngen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In einer aktuellen Veröffentlichung auf arXiv wird ein innovatives Konzept für das Offline‑Imitation Learning vorgestellt, das speziell auf Situationen abzielt, in denen ein Teil des entscheidungsrelevanten Zustands nur über verrauschte Messungen erfasst wird und die Datenverteilung zwischen Training und Einsatz unterschiedlich sein kann. Solche Bedingungen führen zu trügerischen Korrelationen zwischen Zustand und Aktion, wodurch herkömmliche Methoden des Behavioral Cloning (BC) – egal ob sie die Rohmessungen nutzen oder ignorieren – systematisch verzerrte Politiken erzeugen.

Um diesem Problem entgegenzuwirken, schlägt die Arbeit einen generellen Rahmen vor, der die kausalen Zusammenhänge zwischen den Variablen explizit modelliert. Dadurch entsteht ein Ziel, das eine kausale Interpretation behält und gleichzeitig robust gegenüber Verteilungssprüngen ist. Aufbauend auf Prinzipien der proximalen kausalen Inferenz wird die Methode CausIL eingeführt, die verrauschte Zustandsbeobachtungen als Proxy‑Variablen behandelt. Die Autoren liefern Identifikationsbedingungen, unter denen die Zielpolitik aus Demonstrationen ohne Belohnungen oder interaktive Expertenabfragen rekonstruierbar ist.

Für diskrete und kontinuierliche Zustandsräume werden geeignete Schätzer entwickelt. Im kontinuierlichen Fall nutzt das Verfahren einen adversarialen Ansatz über RKHS‑Funktionsklassen, um die erforderlichen Parameter zu lernen. Die Wirksamkeit von CausIL wird anhand von semi‑simulierten Langzeitdaten aus dem PhysioNet/Computing in Cardiology Challenge 2019‑Kohorte getestet. Die Ergebnisse zeigen, dass das neue Verfahren gegenüber klassischen BC‑Baselines eine deutlich höhere Robustheit gegenüber Verteilungssprüngen aufweist.

Ähnliche Artikel