SkyRL-Agent: Revolutioniert RL-Training für mehrseitige LLM-Agenten
Das neue Framework SkyRL-Agent verspricht einen echten Durchbruch im Reinforcement‑Learning für große Sprachmodelle. Durch effiziente asynchrone Dispatching‑Mechanismen, leichte Tool‑Integration und flexible Backend‑Kompatibilität lässt es sich nahtlos mit bestehenden RL‑Systemen wie SkyRL‑train, VeRL und Tinker verbinden.
Mit SkyRL-Agent wurde der Software‑Engineering‑Agent SA‑SWE‑32B aus dem Qwen3‑32B‑Modell trainiert – ausschließlich mit Reinforcement‑Learning. Das Ergebnis: 24,4 % Pass@1 bei der ersten Evaluation und später 39,4 % Pass@1 auf dem SWE‑Bench. Dabei wurde die Trainingskosten im Vergleich zu früheren Modellen um mehr als das Doppelte reduziert.
Zwei Kernkomponenten treiben die Effizienz an: ein optimierter asynchroner Pipeline‑Dispatcher, der die Geschwindigkeit um 1,55‑fach steigert, und ein tool‑gestütztes Trainingsrezept, das mithilfe eines AST‑basierten Suchwerkzeugs die Code‑Navigation verbessert, die Pass@K‑Rate erhöht und die Gesamteffizienz des Trainings steigert.
Obwohl SA‑SWE‑32B ausschließlich auf SWE‑Aufgaben trainiert wurde, zeigt es eine starke Generalisierung auf andere agentische Aufgaben wie Terminal‑Bench, BrowseComp‑Plus und WebArena. Damit demonstriert SkyRL-Agent, dass ein gut optimiertes RL‑Framework über die ursprüngliche Domäne hinaussetzbar ist.
Die Vielseitigkeit des Systems wird durch Fallstudien unterstrichen, in denen Deep‑Research‑, Computer‑Use‑ und Memory‑Agenten jeweils mit unterschiedlichen Backends trainiert wurden. SkyRL-Agent beweist damit, dass es nicht nur ein Tool, sondern ein umfassendes Ökosystem für die Entwicklung leistungsfähiger, mehrseitiger LLM‑Agenten ist.