Test‑getriebenes Reinforcement Learning: Mehr Tests statt ein Reward
Reinforcement Learning (RL) wird häufig für die Steuerung von Robotern eingesetzt, doch die Gestaltung der Reward‑Funktion ist oft schwierig und führt zu suboptimalen Aufgabenbeschreibungen. Das neue Test‑Driven Reinforcement Learning (TdRL) schlägt eine Alternative vor: Statt einer einzigen Reward‑Funktion werden mehrere Test‑Funktionen verwendet, um die Aufgabenziele klarer zu definieren.