MarsRL: Mehr-Agenten-Logik mit Reinforcement Learning steigert LLM-Performance
Die jüngsten Durchbrüche bei großen Sprachmodellen (LLMs) wurden maßgeblich durch Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) und Test‑Time‑Scaling vorangetrieben. Trotz dieser Fortschritte begrenzt di…