KI News: Kurz und klar.

Anmelden

Building Coding Agents via Entropy-Enhanced Multi-Turn Preference Optimization

arXiv – cs.AI • 17.09.2025 05:00 • Original

#Software Engineering #große Sprachmodelle #SWE-Bench #Testzeit-Skalierung #Direkte Präferenzoptimierung #Mehrfachschritt-Logik #Werkzeugintegration

Anzeige

Ähnliche Artikel

arXiv – cs.LG • 06.02.2026 05:00

Geometrische Anker: Neue Methode stärkt Robustheit bei LLM-Alignment

arXiv – cs.AI • 27.10.2025 04:00

Boosting Accuracy and Efficiency of Budget Forcing in LLMs via Reinforcement Learning for Mathematical Reasoning

arXiv – cs.AI • 29.09.2025 05:00

Dynamic Experts Search: Enhancing Reasoning in Mixture-of-Experts LLMs at Test Time

arXiv – cs.AI • 17.09.2025 05:00

LTA-thinker: Latent Thought-Augmented Training Framework for Large Language Models on Complex Reasoning

arXiv – cs.AI • 11.02.2026 05:00

CoMMa: Neue Game-Theoretic Multi-Agenten für präzisere Onkologie-Entscheidungen

arXiv – cs.AI • 10.02.2026 05:00

Halluzinationen in Sprachmodellen: OOD-Ansatz liefert effektive Erkennung