<p>Eine neue Studie von Forschern aus dem Bereich der klinischen Sprachverarbeitung hat gezeigt, dass große Sprachmodelle (LLMs) zwar über umfangreiches medizinisches Wissen verfügen, aber bei der Anwendung dieses Wissens in komplexen Schlussfolgerungen stark zu wünschen übrig lassen. Durch die Entwicklung eines speziellen Benchmarks für klinische Natural Language Inference (NLI) konnten die Autoren die Grenzen der aktuellen Modelle eindeutig nachweisen.</p>
Der Benchmark, der vier zentrale Denkfamilien abdeckt – Kausale Attribution, Kompositionale Grounding, Epistemische Verifikation und Risikostatus-Abstraktion – verbindet jede Aufgabe mit einem gezielten Probe-Set namens Ground Knowledge and Meta-Level Reasoning Verification (GKMRV). Dieses Probe-Set trennt den Zugriff auf Fakten von der Fähigkeit, logische Schlüsse zu ziehen, und ermöglicht so eine präzise Analyse der Schwächen der Modelle.