Microsoft AI Introduces rStar2-Agent: A 14B Math Reasoning Model Trained with Agentic Reinforcement Learning to Achieve Frontier-Level Performance
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
SofT-GRPO: Soft-Thinking-LLMs übertreffen klassische Token-basierte RL-Methoden
arXiv – cs.AI
•
Illusions of reflection: open-ended task reveals systematic failures in Large Language Models' reflective reasoning
arXiv – cs.AI
•
ArXiv-Paper enthüllt Architektur autonomer LLM-Agenten
arXiv – cs.AI
•
Neues Verfahren verbessert Zuverlässigkeit von LLMs bei komplexen Aufgaben
arXiv – cs.AI
•
Effiziente CoT-Übertragung: Adaptive Zusammenfassung steigert Genauigkeit um 40 %
arXiv – cs.AI
•
Neues Messverfahren verbessert Übereinstimmung von KI- und menschlicher Argumentation