Neues GPG-Theorem: Optimierung von Transformer-Politiken für LLMs
Ein neues Forschungsdokument auf arXiv (ID 2512.10365v1) stellt das Generalized Policy Gradient (GPG)-Theorem vor, das speziell für Transformer-basierte Politiken entwickelt wurde. Die Autoren zeigen, dass sowohl das kl…