KI News: Kurz und klar.

Anmelden

XRPO: Pushing the limits of GRPO with Targeted Exploration and Exploitation

arXiv – cs.LG • 09.10.2025 05:00 • Original

#Reinforcement Learning #Large Language Models #GRPO #XRPO #Rollout Allocation #Exploration-Exploitation #In-Context Seeding

Anzeige

Ähnliche Artikel

arXiv – cs.LG • 12.01.2026 05:00

Dynamische Hybrid-Optimierung: Token- und Sequenz-Strategien vereint

arXiv – cs.AI • 05.09.2025 05:00

Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning

arXiv – cs.AI • 03.02.2026 05:00

KEPO: Wissensbasierte Präferenzoptimierung für Reinforcement Learning

arXiv – cs.AI • 02.02.2026 05:00

TSPO: Lösung des Homogenisierungs-Dilemmas bei mehrstufiger Suchoptimierung

arXiv – cs.AI • 02.02.2026 05:00

ThinkSafe: Selbstgenerierte Sicherheitsausrichtung für große Rechenmodelle

arXiv – cs.AI • 02.02.2026 05:00

UCPO: Neue Methode reduziert Halluzinationen in Sprachmodellen