Physikbasierte Belohnungsmaschinen beschleunigen Reinforcement Learning
Reward‑Machines (RMs) ermöglichen es, nicht‑Markovsche Belohnungen in Reinforcement‑Learning‑Systemen strukturiert zu definieren. Sie trennen das bereits Bekannte über die Umwelt – das Belohnungssystem – von dem, was noch entdeckt werden muss, und erleichtern damit Verfahren wie counterfactual experience generation und reward shaping.
In der neuen Arbeit werden physikbasierte Belohnungsmaschinen (pRMs) vorgestellt. Dabei handelt es sich um symbolische Automaten, die komplexe Lernziele und Belohnungsstrukturen für RL‑Agenten ausdrücken können. Durch die Einbindung physikalischer Erkenntnisse werden die Modelle noch präziser und programmierbarer.
Die Autoren präsentieren RL‑Algorithmen, die pRMs gezielt nutzen. Durch counterfactual experiences und gezieltes Reward‑Shaping wird die Lernkurve deutlich beschleunigt, da die Agenten schneller relevante Informationen aus der Umgebung extrahieren können.
Experimentelle Ergebnisse aus sowohl endlichen als auch kontinuierlichen physikalischen Umgebungen zeigen, dass pRMs die Lerneffizienz in mehreren Steuerungsaufgaben signifikant steigern. Die Tests demonstrieren die hohe Ausdruckskraft und die praktische Wirksamkeit der neuen Methode.
Zusammenfassend bieten physikbasierte Belohnungsmaschinen einen vielversprechenden Ansatz, um die Sample‑Complexity in Reinforcement‑Learning zu reduzieren und die Lernzeit für komplexe Aufgaben drastisch zu verkürzen.