John Yangs SWE‑Bench wird zum Standard für KI‑Coding‑Tests
Anzeige
John Yang hat in einem Princeton‑Badezimmer das erste SWE‑Bench entwickelt und seitdem die Plattform kontinuierlich erweitert – von CodeClash bis hin zu den neuen Varianten SWE‑Bench Multimodal und SWE‑Bench Multilingual. In den vergangenen anderthalb Jahren hat sich seine Benchmark als unverzichtbares Werkzeug etabliert, um KI‑Coding‑Agenten zu bewerten. Unternehmen wie Cognition (Devin), OpenAI, Anthropic und zahlreiche führende Forschungslabore setzen darauf, um Software‑Engineering in großem Maßstab zu optimieren.
Ähnliche Artikel
ZDNet – Artificial Intelligence
•
OpenAI, Anthropic und Google stellen neue KI-Tools für die Medizin vor
AI News (TechForge)
•
KI-Diagnostik: OpenAI, Google und Anthropic starten neue medizinische Tools
VentureBeat – AI
•
Mistral präsentiert OCR 3: 74 % Erfolgsquote, 2 $ pro 1.000 Seiten
The Register – Headlines
•
Ehemaliger britischer Finanzminister George Osborne startet bei OpenAI
Aakash Gupta – AI & Product
•
OpenAI, Anthropic & Block teilen Infrastruktur – Weg zum 10x PLG mit KI
ZDNet – Artificial Intelligence
•
Lösung für chaotische KI-Agenten-Ökosysteme könnte endlich da sein