Forschung
Neues Benchmark zeigt Schwächen von LLMs bei mehrstufiger medizinischer Diagnostik
Wissenschaftler haben ein neues, zweisprachiges Benchmark namens ShatterMed‑QA entwickelt, das die Fähigkeit großer Sprachmodelle (LLMs) au…
arXiv – cs.AI