Neues Verfahren liefert zitierfähige klinische Zusammenfassungen ohne Training

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In der medizinischen Dokumentation ist es entscheidend, dass Zusammenfassungen nicht nur flüssig und verständlich sind, sondern auch klar zeigen, woher jede Aussage stammt. Ein neues, trainingsfreies Verfahren nutzt die Aufmerksamkeitsmechanismen von Sprachgeneratoren, um während der Textproduktion direkt auf unterstützende Textstellen oder Bildausschnitte zu verweisen.

Das System bietet zwei Varianten der multimodalen Attribution. Der „Raw‑Image‑Modus“ greift dabei auf die Aufmerksamkeitswerte der Bildpatches zurück, während der „Caption‑as‑Span‑Modus“ die Bilder durch automatisch generierte Bildbeschreibungen ersetzt und so eine rein textbasierte Ausrichtung ermöglicht. Beide Ansätze umgehen die Notwendigkeit, Modelle neu zu trainieren oder nachträglich zu korrigieren.

In umfangreichen Tests auf zwei unterschiedlichen Datensätzen – klinisch-patientenbezogenen Dialogen (CliConSummation) und Röntgenberichten (MIMIC‑CXR) – übertrifft das Verfahren bestehende Methoden, die auf Embedding‑Vergleichen oder selbstattributiven Techniken basieren. Die Genauigkeit der Quellenangaben steigt um bis zu 15 % F1‑Score im Vergleich zu Embedding‑Baselines, und die Caption‑basierte Variante erreicht nahezu die gleiche Leistung wie der Bild‑Patch‑Ansatz, jedoch mit geringerer Rechenlast.

Diese Ergebnisse zeigen, dass aufmerksamkeitsbasierte Attribution ein vielversprechender Schritt in Richtung interpretierbarer und einsatzbereiter klinischer Zusammenfassungssysteme ist. Durch die direkte Verknüpfung von Text und Bild kann die Nachvollziehbarkeit von medizinischen Berichten erheblich verbessert werden, ohne zusätzliche Trainingsaufwände zu erfordern.

Ähnliche Artikel