Online‑Diffusions‑Policy‑Algorithmen: Neue Übersicht für skalierbare Robotik
In der Robotik hat sich die Diffusions‑Policy als besonders ausdrucksstark erwiesen, weil sie multimodale Aktionsverteilungen besser modellieren kann als klassische Policy‑Netze. Trotz dieser Vorteile bleibt die Kombination mit Online‑Reinforcement‑Learning schwierig, weil die Trainingsziele von Diffusionsmodellen nicht mit den üblichen Policy‑Verbesserungsmechanismen von RL übereinstimmen.