Mehr als Einzel-Schritt-Updates: RL für Heuristiken mit begrenzter Suche
In vielen Aufgaben der sequenziellen Entscheidungsfindung lässt sich das Ziel, von einem Startzustand zu einem Zielzustand zu gelangen, als kürzeste-Pfad-Problem formulieren. Klassische Heuristik-Suchalgorithmen nutzen eine Schätzwertfunktion, die den verbleibenden Aufwand zum Ziel für jeden Zustand angibt.