LLMs diagnostizieren seltene Krankheiten in realen Settings nicht zuverlässig
Seltene Erkrankungen betreffen etwa 1 von 10 Amerikanern, doch die differenzielle Diagnose bleibt ein großes Problem. In den letzten Jahren wurden große Sprachmodelle (LLMs) wegen ihrer beeindruckenden Erinnerungsfähigkeit für die Differentialdiagnose untersucht, jedoch basierten die bisherigen Bewertungen auf idealisierten Fallstudien oder auf ICD-Codes, die seltene Krankheiten stark unterrepräsentieren.
Um diese Schwächen zu überwinden, hat ein neues Benchmark namens MIMIC‑RD entwickelt, das klinische Textentitäten direkt mit der Orphanet-Datenbank verknüpft. Der Prozess begann mit einer LLM‑basierten Extraktion, gefolgt von einer sorgfältigen Validierung durch vier medizinische Annotatoren, die bestätigten, dass die identifizierten Entitäten echte seltene Krankheiten sind.
Bei der Bewertung von 145 Patienten zeigte sich, dass die derzeit führenden LLMs bei der differenziellen Diagnose seltener Erkrankungen deutlich hinter den klinischen Anforderungen zurückbleiben. Die Ergebnisse verdeutlichen einen erheblichen Leistungsabstand zwischen den aktuellen Modellen und den Bedürfnissen der Praxis.
Die Studie legt mehrere zukünftige Richtungen fest, um die Diagnoseleistung für seltene Krankheiten zu verbessern, darunter die Integration umfangreicherer Datenquellen, die Optimierung von Modellarchitekturen und die Entwicklung gezielter Trainingsstrategien.