Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Pass@1”
Forschung

<p>Agentische Systeme: Zufälligkeit macht Pass@1‑Ergebnisse unzuverlässig</p> <p>Eine neue Studie auf arXiv (2602.07150v1) untersucht die Stabilität von Pass@1‑Messungen bei agentischen KI‑Systemen. Dabei wurden 60.000 Trajektorien auf dem Benchmark SWE‑Bench‑Verified gesammelt, der drei unterschiedlichen Modellen und zwei verschiedenen Scaffolds entspricht.</p> <p>Die Ergebnisse zeigen, dass die Pass@1‑Werte, die üblicherweise aus einem einzigen Durchlauf berechnet werden, stark variieren. Abhängig von der

arXiv – cs.LG