Forschung
MedCalc-Bench: Benchmark misst nicht, was erwartet – Open‑Book liefert 85 %
Der bislang populäre MedCalc‑Bench, der die Leistungsfähigkeit von Sprachmodellen bei klinischen Rechenaufgaben misst, liefert laut einer n…
arXiv – cs.LG