DevBench: Realistisches Benchmark für Code-Generierungsmodelle
Mit DevBench erhält die Forschung ein neues, auf Telemetrie basierendes Benchmark, das Large Language Models (LLMs) in realen Code‑Completion‑Aufgaben prüft. Das Tool umfasst 1 800 Testfälle, verteilt auf sechs Programm…