Neue Methode verbessert Offline-zu-Online RL durch energiegeleitete Diffusion
Die Überführung von Offline- zu Online-Reinforcement‑Learning stellt ein zentrales Problem dar, weil die Verteilung der Aktionen im Offline‑Datensatz von der sich im Online‑Training entwickelnden Policy abweicht. Trotz…