Neues Benchmark zeigt Schwächen von LLMs bei mehrstufiger medizinischer Diagnostik
Wissenschaftler haben ein neues, zweisprachiges Benchmark namens ShatterMed‑QA entwickelt, das die Fähigkeit großer Sprachmodelle (LLMs) auf mehrstufige medizinische Diagnosen prüft. Während die Modelle bei einfachen Fa…