Trajektorienwert abhängig vom Lernalgorithmus – Policy‑Gradient‑Erkenntnisse
In einer neuen Untersuchung auf arXiv (2511.07878v1) wird gezeigt, dass der Wert einer Trajektorie in der Policy‑Gradient‑Kontrolle stark vom gewählten Lernalgorithmus abhängt. Durch die Anwendung von Trajectory Shapley…