Terminal‑Bench 2.0 und Harbor: Neuer Standard für KI-Agenten in Containern
Die Entwickler der Benchmark-Suite Terminal‑Bench haben die Version 2.0 zusammen mit dem neuen Framework Harbor veröffentlicht. Ziel ist es, die langjährigen Herausforderungen bei der Testung und Optimierung autonomer KI‑Agenten zu lösen, die in realen Entwicklerumgebungen arbeiten.