GRPO-Optimierung zeigt bei kleinen Sprachmodellen Grenzen bei schwierigen Aufgaben
Eine neue Untersuchung auf arXiv beleuchtet, wie die Gradient Preference Optimization (GRPO) in Kombination mit LoRA die mathematische Problemlösung von kleinen Sprachmodellen (bis zu 3 Billionen Parametern) verbessern…