Neuer Algorithmus EVE erreicht maximale Entropie ohne Rollouts
Effiziente Exploration bleibt ein zentrales Problem im Reinforcement Learning, besonders wenn keine externe Belohnungsfunktion vorliegt. Ein Ansatz besteht darin, Agenten zu trainieren, die die Entropie ihrer langfristi…