DockSmith: Skalierung zuverlässiger Docker-Umgebungen mit agentischem Builder
Die Erstellung von Docker‑Umgebungen stellt bislang einen entscheidenden Engpass bei der Skalierung von trainings- und evaluierten Software‑Engineering‑Agenten dar. DockSmith löst dieses Problem, indem es die Umgebungskonstruktion nicht mehr als bloßen Vorverarbeitungsschritt, sondern als zentrale agentische Fähigkeit behandelt. Durch den Einsatz von langfristiger Werkzeugnutzung, Abhängigkeitslogik und automatischer Fehlerbehebung erzeugt DockSmith eine Art „Supervision“, die über das reine Bauen von Docker‑Containern hinaus wirkt.
DockSmith wird anhand von umfangreichen, ausführen‑basierten Docker‑Trajektorien trainiert, die aus einer SWE‑Factory‑ähnlichen Pipeline stammen. Diese Pipeline wird durch einen Schleifen‑Erkennungscontroller und ein Cross‑Task‑Erfolgs‑Speicher ergänzt, sodass das Modell aus einer Vielzahl von Aufgaben lernt und gleichzeitig wiederkehrende Fehler erkennt und korrigiert. Das Ergebnis ist ein 30‑Billionen‑Parameter‑Modell, das die aktuelle Open‑Source‑Leistung bei Multi‑Docker‑Eval deutlich übertrifft.
In den Tests erreicht DockSmith einen Fail‑to‑Pass‑Wert von 39,72 % und eine Commit‑Rate von 58,28 %. Darüber hinaus verbessert es die Leistung bei Out‑of‑Distribution‑Aufgaben wie SWE‑Bench Verified, SWE‑Bench Multilingual und Terminal‑Bench 2.0, was die breiten agentischen Vorteile der Umgebungskonstruktion unterstreicht.