TermiGen: Hochpräzise Umgebungen und robuste Trajektorien für Terminal-Agenten

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die neue Pipeline TermiGen löst ein langjähriges Problem bei der Ausführung komplexer Terminalaufgaben durch Open‑Weight‑LLMs. Während bisherige Trainingsumgebungen entweder zu einseitig oder zu fehlerhaft waren, schafft TermiGen hochrealistische, verifizierbare Szenarien, die direkt in Docker‑Containern ausgeführt werden können.

Der Ansatz kombiniert einen iterativen Multi‑Agent‑Refinement‑Loop, der funktional korrekte Aufgaben generiert, mit einem Generator‑Critic‑Protokoll, das gezielt Fehler einführt. Dadurch entstehen Trainingsdaten, die reich an Fehler‑Korrektur‑Zyklen sind und die Modelle besser auf reale Laufzeitfehler vorbereiten.

Nach dem Fine‑Tuning auf dem TermiGen‑Dataset erreicht das Modell TermiGen‑Qwen2.5‑Coder‑32B einen beeindruckenden Pass‑Rate‑Wert von 31,3 % auf TerminalBench. Damit setzt es einen neuen Open‑Weights‑Meilenstein, übertrifft bestehende Baselines und sogar proprietäre Modelle wie o4‑mini.

Das komplette Dataset ist frei verfügbar unter https://github.com/ucsb-mlsec/terminal-bench-env und ermöglicht Forschern und Entwicklern, die Fortschritte von TermiGen nachzuvollziehen und weiter auszubauen.

Ähnliche Artikel