Forschung
Murphy: Mehrschrittige Optimierung für selbstkorrigierende Codegenerierung
Ein neues Verfahren namens Murphy erweitert die bereits erfolgreiche Group Relative Policy Optimization (GRPO) um einen mehrschrittigen, re…
arXiv – cs.LG