Spark: Policy‑bewusste Exploration für Agenten mit langen Zeithorizonten
Reinforcement‑Learning‑Modelle, insbesondere große Sprachmodelle, haben sich als leistungsfähige Agenten erwiesen, doch ihre Anwendung bei Aufgaben mit langen Zeithorizonten bleibt schwierig. Der Hauptgrund ist die Knap…