MarsRL: Mehr-Agenten-Logik mit Reinforcement Learning steigert LLM-Performance
Die jüngsten Durchbrüche bei großen Sprachmodellen (LLMs) wurden maßgeblich durch Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) und Test‑Time‑Scaling vorangetrieben. Trotz dieser Fortschritte begrenzt die maximale Ausgabelänge der Modelle die Tiefe der in einem einzigen Inferenzschritt möglichen Argumentationsketten.
Eine vielversprechende Lösung ist das Multi‑Agenten‑Reasoning, bei dem mehrere spezialisierte Agenten – Solver, Verifier und Corrector – zusammenarbeiten, um Lösungen iterativ zu verfeinern. In geschlossenen Modellen wie Gemini 2.5 Pro funktioniert dieses Konzept bereits sehr gut, doch bei Open‑Source‑Modellen fehlt häufig ein starker Kritiker und eine effektive Korrekturmechanik, sodass die Generalisierung stark eingeschränkt ist.
Um diese Lücke zu schließen, präsentiert MarsRL ein neues Reinforcement‑Learning‑Framework, das agentisches Pipeline‑Parallelism nutzt. Durch die gleichzeitige Optimierung aller Agenten, agentenspezifische Belohnungsmechanismen zur Reduktion von Rauschsignalen und ein pipeline‑inspiriertes Training für lange Trajektorien wird die Effizienz und Skalierbarkeit deutlich erhöht.
In praktischen Tests auf dem Modell Qwen3‑30B‑A3B‑Thinking‑2507 erzielte MarsRL eine bemerkenswerte Steigerung der AIME2025‑Genauigkeit von 86,5 % auf 93,3 % und der BeyondAIME‑Genauigkeit von 64,9 % auf 73,8 %. Diese Leistungen übertreffen sogar die von Qwen3‑235B‑A22B‑Thinking‑2507, einem deutlich größeren Modell. Die Ergebnisse zeigen, dass MarsRL das Potenzial hat, Multi‑Agenten‑Reasoning‑Systeme zu revolutionieren und ihre Anwendbarkeit auf vielfältige Denkaufgaben zu erweitern.