Gerichtete bipartite Graphen verbessern seltene ICD-Codes

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der automatisierten Zuordnung von Internationalen Klassifikationssystemen für Krankheiten (ICD) stehen die Entwickler vor einer enormen Herausforderung: Mehr als 10 000 bis 20 000 mögliche Codes und eine stark unausgewogene Verteilung, bei der wenige Codes häufig vorkommen, während viele seltene Codes kaum Trainingsdaten besitzen.

Die neue Methode, vorgestellt auf arXiv, nutzt einen gerichteten bipartiten Graphen, der aus zwei getrennten Knoten‑Sätzen besteht – häufige und seltene Codes. Durch gerichtete Kanten, die ausschließlich von häufigen zu seltenen Codes führen, wird ein einseitiger Informationsfluss geschaffen. Die Verbindungen werden mit einer prozentualen Bias‑Gewichtung versehen, die sich aus der bedingten Wahrscheinlichkeit ableitet, dass ein häufiger Code zusammen mit einem seltenen Code auftritt.

Diese Bias‑Gewichtung wird in das Attention‑Modul des Encoders eingespeist – ein Verfahren, das als Co‑Occurrence Encoding bezeichnet wird. Damit kann der Graph Encoder die Repräsentationen seltener Codes mit latenter Komorbiditätsinformation anreichern, die aus den statistischen Zusammenhängen ihrer häufigen Gegenstücke abgeleitet wird.

Um die Eingabedaten weiter zu verbessern, generiert ein großes Sprachmodell (LLM) ausführliche Beschreibungen für jeden Code. Diese Beschreibungen fügen den ursprünglichen Einbettungen klinischen Kontext und zusätzliche Komorbiditätsinformationen hinzu und fungieren als externe Wissensquelle für die graphbasierten Beziehungen.

Erste Experimente auf umfangreichen ICD‑Datensätzen zeigen, dass das Modell die Genauigkeit bei der Erkennung seltener Codes deutlich steigert und damit einen wichtigen Schritt zur effizienteren automatisierten ICD‑Kodierung darstellt.

Ähnliche Artikel