Forschung
Distributionale Gradienten: Neue RL‑Methode für stochastische Umgebungen
Ein neues Verfahren namens Distributional Sobolev Training erweitert die Möglichkeiten des Reinforcement Learning in stochastischen und ver…
arXiv – cs.LG