Forschung
GRPO-Optimierung zeigt bei kleinen Sprachmodellen Grenzen bei schwierigen Aufgaben
Eine neue Untersuchung auf arXiv beleuchtet, wie die Gradient Preference Optimization (GRPO) in Kombination mit LoRA die mathematische Prob…
arXiv – cs.LG