Forschung arXiv – cs.AI

DockSmith: Skalierung zuverlässiger Docker-Umgebungen mit agentischem Builder

Die Erstellung von Docker‑Umgebungen stellt bislang einen entscheidenden Engpass bei der Skalierung von trainings- und evaluierten Software‑Engineering‑Agenten dar. DockSmith löst dieses Problem, indem es die Umgebungsk…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Die Erstellung von Docker‑Umgebungen stellt bislang einen entscheidenden Engpass bei der Skalierung von trainings- und evaluierten Software‑Engineering‑Agenten dar.
  • DockSmith löst dieses Problem, indem es die Umgebungskonstruktion nicht mehr als bloßen Vorverarbeitungsschritt, sondern als zentrale agentische Fähigkeit behandelt.
  • Durch den Einsatz von langfristiger Werkzeugnutzung, Abhängigkeitslogik und automatischer Fehlerbehebung erzeugt DockSmith eine Art „Supervision“, die über das reine Bau…

Die Erstellung von Docker‑Umgebungen stellt bislang einen entscheidenden Engpass bei der Skalierung von trainings- und evaluierten Software‑Engineering‑Agenten dar. DockSmith löst dieses Problem, indem es die Umgebungskonstruktion nicht mehr als bloßen Vorverarbeitungsschritt, sondern als zentrale agentische Fähigkeit behandelt. Durch den Einsatz von langfristiger Werkzeugnutzung, Abhängigkeitslogik und automatischer Fehlerbehebung erzeugt DockSmith eine Art „Supervision“, die über das reine Bauen von Docker‑Containern hinaus wirkt.

DockSmith wird anhand von umfangreichen, ausführen‑basierten Docker‑Trajektorien trainiert, die aus einer SWE‑Factory‑ähnlichen Pipeline stammen. Diese Pipeline wird durch einen Schleifen‑Erkennungscontroller und ein Cross‑Task‑Erfolgs‑Speicher ergänzt, sodass das Modell aus einer Vielzahl von Aufgaben lernt und gleichzeitig wiederkehrende Fehler erkennt und korrigiert. Das Ergebnis ist ein 30‑Billionen‑Parameter‑Modell, das die aktuelle Open‑Source‑Leistung bei Multi‑Docker‑Eval deutlich übertrifft.

In den Tests erreicht DockSmith einen Fail‑to‑Pass‑Wert von 39,72 % und eine Commit‑Rate von 58,28 %. Darüber hinaus verbessert es die Leistung bei Out‑of‑Distribution‑Aufgaben wie SWE‑Bench Verified, SWE‑Bench Multilingual und Terminal‑Bench 2.0, was die breiten agentischen Vorteile der Umgebungskonstruktion unterstreicht.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

DockSmith
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Docker
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Software Engineering Agent
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen