Neue RL-Methode: Trajektorien-Entropie begrenzt Lernen
Maximum‑Entropy‑Reinforcement‑Learning (RL) hat sich als führendes Off‑Policy‑Framework etabliert, um Exploitation und Exploration auszubalancieren. Trotz seiner Beliebtheit gibt es zwei wesentliche Engpässe: Erstens fü…