CLIP in der Medizin: Negation erschwert Bildsuche – neue Erkenntnisse

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Vision‑Language‑Modelle wie CLIP gewinnen in der medizinischen Bildgebung immer mehr an Bedeutung, weil sie Bilder und Texte ohne umfangreiche gelabelte Daten verknüpfen können. Das macht sie besonders nützlich für Aufgaben wie Bildsuche, Berichtserstellung und Klassifikation in klinischen Umgebungen.

Ein Problem ist jedoch die schlechte Handhabung von negierten Formulierungen. In einer aktuellen Untersuchung wurde das Stanford AIMI CheXagent-Modell auf seine Fähigkeit getestet, Röntgenaufnahmen anhand von Suchanfragen mit und ohne Negation korrekt zu finden. Die Ergebnisse zeigen, dass durch gezielte Feinabstimmung die Modellleistung bei negierten Anfragen verbessert werden kann, während die Genauigkeit bei positiven Anfragen leicht zurückgeht.

Zur Analyse des Modellverhaltens wurden Token‑Attributionen, t‑SNE‑Projektionen und Ablationen von Aufmerksamkeits­köpfen eingesetzt. Diese Methoden verdeutlichen, wie die Feinabstimmung die Text‑Encoder‑Repräsentation von klinisch relevanter Negation umgestaltet. Ziel ist es, CLIP zuverlässiger für medizinische KI‑Geräte zu machen, indem die Verarbeitung von negierten Aussagen optimiert wird.

Ähnliche Artikel