Building Coding Agents via Entropy-Enhanced Multi-Turn Preference Optimization
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
Boosting Accuracy and Efficiency of Budget Forcing in LLMs via Reinforcement Learning for Mathematical Reasoning
arXiv – cs.AI
•
Dynamic Experts Search: Enhancing Reasoning in Mixture-of-Experts LLMs at Test Time
arXiv – cs.AI
•
LTA-thinker: Latent Thought-Augmented Training Framework for Large Language Models on Complex Reasoning
arXiv – cs.AI
•
LLM mit kritischer Denkweise: Stepwise Think-Critique verbessert Problemlösung
arXiv – cs.AI
•
Robuste Wasserzeichen für KI-Code: Neue Methode schützt vor Kommentarentfernung
arXiv – cs.LG
•
Testzeit-Training steigert Leistung von LLMs mit langen Kontexten