Murphy: Mehrschrittige Optimierung für selbstkorrigierende Codegenerierung
Ein neues Verfahren namens Murphy erweitert die bereits erfolgreiche Group Relative Policy Optimization (GRPO) um einen mehrschrittigen, reflektierenden Optimierungsprozess. Durch die Kombination von quantitativen und q…