Diffusionspolitik: Bedingte proximal Policy Optimization
Reinforcement‑Learning‑Forscher haben kürzlich gezeigt, dass Diffusionsmodelle ein vielversprechendes Mittel sind, um multimodale Handlungsstrategien zu erzeugen. Im Gegensatz zu herkömmlichen Gauß‑Politiken ermöglichen…