Delta L Normalisierung: Neue Methode stabilisiert RLVR‑Training
In einer kürzlich veröffentlichten Arbeit auf arXiv (2509.07558v1) stellen die Autoren die ΔL‑Normalisierung vor – ein einfaches, aber wirkungsvolles Verfahren zur Aggregation von Verlusten in Reinforcement Learning mit…