XRPO: Pushing the limits of GRPO with Targeted Exploration and Exploitation
Anzeige
Ähnliche Artikel
arXiv – cs.LG
•
Dynamische Hybrid-Optimierung: Token- und Sequenz-Strategien vereint
arXiv – cs.AI
•
Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning
arXiv – cs.AI
•
KEPO: Wissensbasierte Präferenzoptimierung für Reinforcement Learning
arXiv – cs.AI
•
TSPO: Lösung des Homogenisierungs-Dilemmas bei mehrstufiger Suchoptimierung
arXiv – cs.AI
•
ThinkSafe: Selbstgenerierte Sicherheitsausrichtung für große Rechenmodelle
arXiv – cs.AI
•
UCPO: Neue Methode reduziert Halluzinationen in Sprachmodellen