Neue RL-Methode: Trajektorien-Entropie begrenzt Lernen
Maximum‑Entropy‑Reinforcement‑Learning (RL) hat sich als führendes Off‑Policy‑Framework etabliert, um Exploitation und Exploration auszubalancieren. Trotz seiner Beliebtheit gibt es zwei wesentliche Engpässe: Erstens führt die gleichzeitige Einführung von Entropie und deren Gewichtungsparameter – der Temperatur – zu nicht‑stationären Q‑Wert‑Schätzungen. Zweitens wird die Temperatur bislang nur anhand der aktuellen, einzelnen Schritt‑Entropie angepasst, ohne die kumulative Wirkung über die Zeit zu berücksichtigen.