Imitation Learning: Optimierung komplexer Aufgaben unter Unsicherheit

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Im neuen Beitrag auf arXiv wird gezeigt, wie Imitation Learning (IL) als datengetriebene Methode große kombinatorische Optimierungsprobleme, die als sequentielle Entscheidungsprobleme (SDPs) formuliert sind, effizient lösen kann. Traditionell sind exakte Verfahren für solche Aufgaben zu rechenintensiv, doch IL nutzt Demonstrationen eines Experten, um lernfähige Richtlinien zu erzeugen.

Ein bislang wenig beleuchtetes Thema ist die Art des Experten, der die Trainingsdaten liefert. Die Autoren stellen eine systematische Taxonomie vor, die Experten in drei Dimensionen klassifiziert: (1) die Behandlung von Unsicherheit – von myopischen bis hin zu mehrstufigen stochastischen Modellen; (2) das Optimierungsniveau – von exakt optimal bis hin zu approximativ optimal; und (3) die Interaktionsform – von einmaliger Anleitung bis zu iterativem, interaktivem Feedback.

Auf Basis dieser Taxonomie wird ein generalisiertes DAgger-Algorithmus vorgestellt, der mehrere Expertensitzungen, Aggregation von Expertenwissen und flexible Interaktionsstrategien unterstützt. Die Methode wird an einem dynamischen Problem der Zuordnung von Ärzten zu Patienten mit stochastischen Ankunftszeiten und Kapazitätsbeschränkungen getestet. Vergleichende Experimente zeigen, dass die Lernleistung stark von der gewählten Expertenart und dem Interaktionsmodus abhängt – und dass IL unter geeigneten Bedingungen robuste, leistungsfähige Richtlinien erzeugen kann.

Ähnliche Artikel