Effiziente multimodale Pipeline für MIMIC‑IV: Schnellere Analyse
Das MIMIC‑IV‑Datensatz‑Set ist eine umfangreiche, öffentlich zugängliche elektronische Gesundheitsakte, die von Forschern im klinischen Maschinellen Lernen häufig genutzt wird. Es enthält verschiedene Modalitäten – strukturierte Daten, klinische Notizen, Signalwellen und Bilddaten – die bislang sehr aufwendig manuell vorverarbeitet und abgeglichen werden mussten.
Obwohl bereits einige Pipelines für MIMIC‑IV existieren, decken sie meist nur wenige Modalitäten ab oder lassen sich nicht flexibel in beliebige Analyse‑Workflows einbinden. Die neue Pipeline baut auf einem beliebten unimodalen Vorläufer auf und erweitert ihn zu einer umfassenden, anpassbaren multimodalen Lösung.
Sie integriert sämtliche Modalitäten systematisch, ermöglicht automatisierte Kohorten‑Auswahl, zeitliche Ausrichtung über alle Datenquellen hinweg und liefert standardisierte Ausgabedateien, die für statische und zeitabhängige Anwendungen geeignet sind. Dadurch wird die Verarbeitungszeit deutlich reduziert und die Reproduzierbarkeit von MIMIC‑basierten Studien verbessert.
Der Code, eine benutzerfreundliche Oberfläche und ein Python‑Paket zur selektiven Einbindung (inkl. Embedding) sind frei verfügbar unter GitHub.