Rauschen zerstört Verstärkendes Lernen mit verifizierbaren Belohnungen
Eine neue Untersuchung auf arXiv zeigt, dass Rauschen in Trainingsdaten das Potenzial von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) stark einschränkt. Frühere Studien hatten behauptet, dass RLVR-Algo…