Offline-Training von sicherheitskritischen RL-Agenten mit Conservative Q‑Learning
In diesem Tutorial wird ein ganzheitliches Lernsystem für sicherheitskritische Reinforcement‑Learning‑Agenten vorgestellt, das ausschließlich auf festem, offlineem Datensatz basiert – ohne Live‑Erkundung. Der Ansatz beg…