UpBench: Dynamisches Labor-Markt-Benchmark für KI-Agenten aus realen Upwork-Jobs
Mit UpBench erhält die Forschung ein neues, dynamisches Werkzeug, um die Leistungsfähigkeit von KI-Agenten in echten Arbeitsumgebungen zu messen. Das System nutzt echte Aufträge aus dem globalen Upwork-Markt, sodass jede Aufgabe auf einer verifizierten Kunden-Transaktion basiert und damit reale Arbeitsbedingungen sowie finanzielle Ergebnisse widerspiegelt.