Success Conditioning: Erfolgsorientiertes Lernen löst Trust‑Region‑Optimierung
In einer neuen Studie von ArXiv 2601.18175v1 wird die weit verbreitete Technik des Success Conditioning – bei der erfolgreiche Trajektorien identifiziert und die Policy darauf trainiert wird – endlich in einen klaren Op…