Forschung
Neue RL-Methode: Trajektorien-Entropie begrenzt Lernen
Maximum‑Entropy‑Reinforcement‑Learning (RL) hat sich als führendes Off‑Policy‑Framework etabliert, um Exploitation und Exploration auszubal…
arXiv – cs.LG