Neues Benchmark MLB bewertet KI-Modelle in der klinischen Praxis

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

Die rasante Verbreitung von Large Language Models (LLMs) eröffnet enormes Potenzial für die Gesundheitsversorgung, doch die praktische Umsetzung bleibt bislang durch fehlende Bewertungsrahmen für die reale klinische Nützlichkeit eingeschränkt. Das neue Medical LLM Benchmark (MLB) schließt diese Lücke, indem es LLMs nicht nur auf statischem Wissen prüft, sondern auch ihre Fähigkeit zur Szenario‑basierten Entscheidungsfindung in der Praxis bewertet.

MLB gliedert sich in fünf Kernbereiche: Medical Knowledge (MedKQA), Safety and Ethics (MedSE), Medical Record Understanding (MedRU), Smart Services (SmartServ) und Smart Healthcare (SmartCare). Der Testumfang umfasst 22 Datensätze – 17 davon neu kuratiert – aus verschiedensten chinesischen klinischen Quellen und deckt 64 Fachgebiete ab. Ein sorgfältig entwickelter Kurationsprozess involviert 300 lizensierte Ärzte, um die Qualität und Relevanz der Inhalte sicherzustellen.

Zur Bewertung wird ein skalierbares Verfahren eingesetzt, das ein spezielles „Judge“-Modell nutzt, das mittels Supervised Fine‑Tuning (SFT) auf Expertenannotationen trainiert wurde. Bei der umfassenden Analyse von zehn führenden Modellen zeigte sich ein deutlicher Übersetzungsriss: Das Spitzenmodell Kimi‑K2‑Instruct erreichte 77,3 % Gesamtgenauigkeit, glänzte jedoch bei strukturierten Aufgaben wie der Extraktion aus medizinischen Aufzeichnungen (87,8 % in MedRU), während die Leistung in patientenorientierten Szenarien (61,3 % in SmartServ) deutlich zurückfiel. Gleichzeitig demonstrierte das kleinere Baichuan‑M2‑32B eine herausragende Sicherheit (90,6 % in MedSE), was verdeutlicht, dass gezielte Trainingsansätze ebenso entscheidend sind.

Das MLB‑Benchmark bietet damit ein umfassendes, praxisnahes Instrument, um die Einsatzfähigkeit von LLMs im Gesundheitswesen realistisch zu beurteilen und gezielte Verbesserungen zu ermöglichen.

Ähnliche Artikel