Open-Weight-LLMs meistern medizinische Textanalyse in 6 Sprachen & 6 Fällen
In einer umfassenden Studie wurden 15 Open‑Weight‑Large‑Language‑Models (LLMs) auf ihre Fähigkeit getestet, strukturierte Daten aus freitextigen Pathologie‑ und Radiologierapporten zu extrahieren. Die Evaluation umfasste sechs klinische Anwendungsfälle – kolorektale Lebermetastasen, Lebertumoren, neurodegenerative Erkrankungen, Weichteiltumoren, Melanome und Sarkome – und wurde an drei europäischen Zentren in den Niederlanden, dem Vereinigten Königreich und der Tschechischen Republik durchgeführt.
Die untersuchten Modelle reichten von allgemeinen, großdimensionierten LLMs bis hin zu kleineren, medizinisch spezialisierten Varianten. Für die Aufgaben wurden sechs unterschiedliche Prompting‑Strategien verglichen: Zero‑Shot, One‑Shot, Few‑Shot, Chain‑of‑Thought, Self‑Consistency und Prompt‑Graph. Die Leistung wurde anhand fachspezifischer Metriken gemessen, ergänzt durch Konsens‑Rangaggregation und lineare Mixed‑Effects‑Modelle, um die Varianz zu quantifizieren.
Die Ergebnisse zeigen, dass die bestbewerteten Modelle mit Makro‑Durchschnitts‑Scores nahezu die Inter‑Rater‑Übereinstimmung erreichen. Interessanterweise schneiden kleine bis mittelgroße, allgemeine LLMs ähnlich gut ab wie die größten Modelle, während sehr kleine und stark spezialisierte Varianten schlechter abschneiden. Besonders die Prompt‑Graph‑ und Few‑Shot‑Ansätze steigerten die Genauigkeit um etwa 13 %. Faktoren wie die Komplexität der Aufgaben und die Variabilität der Annotationen beeinflussten die Ergebnisse stärker als Modellgröße oder Prompting‑Strategie.
Diese Studie beweist, dass Open‑Weight‑LLMs zuverlässig strukturierte Informationen aus klinischen Texten extrahieren können – unabhängig von Krankheit, Sprache oder Institution. Damit bieten sie einen skalierbaren Ansatz für die automatisierte Datenkuratierung im Gesundheitswesen.