Forschung
DARE-bench: LLMs in Data‑Science bewerten – Anweisungsgenauigkeit & Modellierung
Die wachsende Nachfrage nach leistungsfähigen Large Language Models (LLMs) für komplexe, mehrstufige Data‑Science-Aufgaben hat ein neues Be…
arXiv – cs.AI