Q‑Learning bleibt stabil – neue Einblicke in die Konvergenz
In einer aktuellen Veröffentlichung auf arXiv wird gezeigt, dass Q‑Learning mit linearer Funktionsapproximation unter der sogenannten $(\varepsilon,\kappa)$‑tamed Gibbs‑Policy stabil bleibt. Das bedeutet, die Parameter…