Do It for HER: Belohnungsspezifikation in RL mit First-Order Temporaler Logik
In einer wegweisenden Veröffentlichung stellen die Autoren ein neues Framework vor, das die logische Spezifikation von nicht-Markovianen Belohnungen in Markov Decision Processes (MDPs) mit riesigen Zustandsräumen ermöglicht. Durch den Einsatz von Linear Temporal Logic Modulo Theories über endliche Spuren (LTLfMT) wird die klassische temporale Logik um erste‑Ordnung‑Formeln beliebiger Theorien erweitert, wodurch komplexe Aufgaben über unstrukturierte und heterogene Datenbereiche präzise beschrieben werden können.