Agent Psychometrics: Aufgabenleistung in Codierungsbenchmarks vorhersagen
Mit dem Wandel von statischer, ein‑Schritt‑Codegenerierung zu mehrschrittigen, agentischen Interaktionen mit Tools und Umgebungen wird es immer schwieriger, vorherzusagen, welche Aufgaben Agenten herausfordern und warum…