RELEAP: KI-gestützte Active Learning Methode verbessert EHR-Phänotypisierung
Die Phänotypisierung von elektronischen Gesundheitsdaten (EHR) stützt sich häufig auf verrauschte Proxy‑Labels, was die Zuverlässigkeit nachgelagerter Risikoprediktionen stark beeinträchtigt. Aktives Lernen kann die Annotationskosten senken, jedoch verlassen sich die meisten Ansätze auf feste Heuristiken und garantieren nicht, dass die Verfeinerung des Phänotyps die Vorhersageleistung tatsächlich steigert.
Hier kommt RELEAP – Reinforcement‑Enhanced Label‑Efficient Active Phenotyping – ins Spiel. Das System nutzt ein Reinforcement‑Learning‑Framework, um mehrere Abfrage‑Strategien dynamisch zu kombinieren. Im Gegensatz zu bisherigen Methoden passt RELEAP seine Policy kontinuierlich an Feedback aus den downstream‑Modellen an, sodass die Auswahl der zu annotierenden Proben direkt die Leistungsverbesserung der Zielvorhersage maximiert.
In einer Evaluierung mit einem anonymisierten Datensatz des Duke University Health System (2014‑2024) wurde RELEAP auf die Vorhersage des Auftretens von Lungenkrebs getestet. Dabei kamen logistische Regressionen und penalierte Cox‑Survival‑Modelle zum Einsatz. Im Vergleich zu verrauschten Label‑Baselines und ein‑Strategie‑Active‑Learning‑Ansätzen erzielte RELEAP signifikante Verbesserungen: der logistische AUC stieg von 0,774 auf 0,805, während der C‑Index des Survival‑Modells von 0,718 auf 0,752 zunahm. Die Methode zeigte dabei eine gleichmäßigere und stabilere Leistungssteigerung innerhalb desselben Beschriftungsbudgets.
Durch die direkte Verknüpfung der Phänotypverfeinerung mit den Ergebnissen der Vorhersagemodelle lernt RELEAP, welche Proben die größte Wirkung auf Diskriminierung und Kalibrierung haben. Das Ergebnis ist ein effizienterer Beschriftungsprozess, der die Qualität von EHR‑Phänotypen nachhaltig erhöht und damit die Grundlage für präzisere klinische Entscheidungen stärkt.