LLM-Fehler in der Onkologie: Kognitive Verzerrungen gefährden Entscheidungen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Eine neue Studie aus dem arXiv-Preprint arXiv:2511.20680v1 zeigt, dass große Sprachmodelle wie GPT‑4 trotz beeindruckender Leistungen bei klinischen Benchmarks häufig zu falschen Schlussfolgerungen gelangen. Diese Fehler entstehen durch fehlerhafte Denkprozesse, die bei der Bewertung von Onkologie‑Notizen nicht durch reine Genauigkeitsmaße erfasst werden.

Die Forscher entwickelten eine dreistufige Taxonomie, um die Arten von Fehlern in den „Chain‑of‑Thought“-Antworten von GPT‑4 zu klassifizieren. Dabei wurden 600 Analyse‑Spuren aus Brust‑ und Bauchspeicheldrüsen‑Krebs‑Notizen des CORAL‑Datensatzes verwendet, um kognitive Verzerrungen wie Bestätigungs‑ und Anker‑Bias zu identifizieren. Anschließend wurde die Taxonomie auf 822 Antworten zu Prostatakrebs‑Berichten angewendet, die von lokal bis metastasiert reichen und Aufgaben wie Datenextraktion, Analyse und klinische Empfehlung abdecken.

Ergebnisse zeigen, dass 23 % der Interpretationen Fehler aufwiesen, wobei Bestätigungs‑ und Anker‑Bias die häufigsten Ursachen waren. Diese Denkfehler führten zu Empfehlungen, die nicht den Leitlinien entsprachen und potenziell schädlich sein könnten – besonders bei der Behandlung fortgeschrittener Erkrankungen. Selbst hochentwickelte automatisierte Prüfer konnten zwar das Vorhandensein von Fehlern erkennen, jedoch nicht zuverlässig die Unterkategorien unterscheiden.

Die Studie unterstreicht, dass Sprachmodelle zwar flüssige, aber klinisch unsichere Ratschläge liefern können, wenn ihre Argumentationswege fehlerhaft sind. Die vorgestellte Taxonomie bietet ein allgemeines Rahmenwerk, um die Zuverlässigkeit von LLM‑Reasoning vor dem klinischen Einsatz systematisch zu prüfen und zu verbessern.

Ähnliche Artikel