KI nutzt synthetische Kliniknotizen zur Verbesserung multimodaler Diagnosen
In der medizinischen Künstlichen Intelligenz gewinnt multimodales Lernen zunehmend an Bedeutung, weil es Bilddaten mit ergänzenden Textinformationen verknüpft und dadurch ein umfassenderes Bild der Patientenlage liefert. Ein großes Hindernis bleibt jedoch die Knappheit heterogener Datensätze, insbesondere in der Dermatologie, wo Bildsammlungen meist nur mit minimalen Metadaten versehen sind. Durch die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) ist es nun möglich, aus Bildbeschreibungen synthetische klinische Notizen zu generieren. Diese Technik eröffnet die Chance, Bild- und Textrepräsentationen zu kombinieren, birgt jedoch das Risiko von Halluzinationen in klinisch relevanten Kontexten.
Die vorliegende Studie untersucht gezielt, wie Prompt-Design und die Einbindung medizinischer Metadaten die Qualität der synthetischen Notizen beeinflussen. Durch Experimente an mehreren dermatologischen Datensätzen wurde gezeigt, dass die generierten Notizen die Klassifikationsleistung deutlich steigern – besonders bei Domain‑Shift‑Szenarien, in denen Modelle auf neuen, unbekannten Daten getestet werden. Darüber hinaus ermöglichen die synthetischen Texte erstmals eine effektive Cross‑Modal‑Retrieval‑Funktion, ein Nachschlagewerk, das während des Trainings nicht explizit optimiert wurde.
Diese Ergebnisse unterstreichen das Potenzial, mit Hilfe von LLMs fehlende Textinformationen zu ergänzen und damit die Zuverlässigkeit und Generalisierbarkeit multimodaler medizinischer KI‑Modelle nachhaltig zu erhöhen.