Forschung
Neuer Algorithmus EVE erreicht maximale Entropie ohne Rollouts
Effiziente Exploration bleibt ein zentrales Problem im Reinforcement Learning, besonders wenn keine externe Belohnungsfunktion vorliegt. Ei…
arXiv – cs.AI