<p>Eine neue Studie von Forschern aus dem Bereich der klinischen Sprachverarbeitung hat gezeigt, dass große Sprachmodelle (LLMs) zwar über umfangreiches medizinisches Wissen verfügen, aber bei der Anwendung dieses Wissens in komplexen Schlussfolgerungen stark zu wünschen übrig lassen. Durch die Entwicklung eines speziellen Benchmarks für klinische Natural Language Inference (NLI) konnten die Autoren die Grenzen der aktuellen Modelle eindeutig nachweisen.</p>

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Der Benchmark, der vier zentrale Denkfamilien abdeckt – Kausale Attribution, Kompositionale Grounding, Epistemische Verifikation und Risikostatus-Abstraktion – verbindet jede Aufgabe mit einem gezielten Probe-Set namens Ground Knowledge and Meta-Level Reasoning Verification (GKMRV). Dieses Probe-Set trennt den Zugriff auf Fakten von der Fähigkeit, logische Schlüsse zu ziehen, und ermöglicht so eine präzise Analyse der Schwächen der Modelle.

Bei der Bewertung von sechs modernen LLMs, sowohl mit direktem Prompting als auch mit Chain-of-Thought-Ansätzen, erzielten die Modelle eine nahezu perfekte GKMRV-Genauigkeit von 91,8 %. In den eigentlichen NLI-Aufgaben lag die durchschnittliche Genauigkeit jedoch bei lediglich 25 %. Trotz dieser niedrigen Werte blieben die generierten Inferenzantworten über verschiedene Durchläufe hinweg sehr konsistent, was auf die Anwendung von heuristischen Kurzschlüssen hinweist.

Die Ergebnisse verdeutlichen, dass die Modelle zwar das notwendige klinische Wissen besitzen, jedoch die strukturierten, komposablen internen Darstellungen fehlen, die für eine zuverlässige Anwendung erforderlich sind. Dies betrifft das Integrieren von Einschränkungen, das Abwägen von Evidenz oder das Simulieren von Gegenfaktischen Szenarien. Die GKMRV-Methode bietet damit ein effektives Werkzeug, um die Zuverlässigkeit von LLMs in hochriskanten Bereichen systematisch zu untersuchen und weiter zu verbessern.

Ähnliche Artikel