Forschung
Neuer Regret‑Bound für Online Q‑Learning ohne Optimismus
Ein neues arXiv‑Veröffentlichungsdokument liefert den ersten hochwahrscheinlichen Regret‑Bound für klassisches Online Q‑Learning in unendli…
arXiv – cs.LG