CNN + BiLSTM: Weniger Recurrent Layers, Mehr Leistung bei ECG-Multi-Label
Die präzise Klassifikation von Herzrhythmusstörungen anhand von Elektrokardiogrammen (EKG) bleibt eine komplexe Aufgabe. Neben der gleichzeitigen Erkennung mehrerer Herzkrankheiten und stark ausgeprägter Klassenungleichgewichte kommt die Notwendigkeit, langfristige zeitliche Abhängigkeiten in mehrspurigen Aufzeichnungen zu berücksichtigen.
In einer systematischen Untersuchung wurden Convolutional Neural Networks (CNN) mit verschiedenen rekurrenten Architekturen kombiniert – darunter LSTM, GRU, Bidirectional LSTM (BiLSTM) und gestapelte Varianten. Ziel war es, die optimale Tiefe des temporalen Modellierens für die Multi‑Label‑Klassifikation im PTB‑XL‑Datensatz mit 23 diagnostischen Kategorien zu bestimmen.
Die Ergebnisse zeigen, dass ein CNN, das mit einer einzigen BiLSTM‑Schicht erweitert wird, die beste Balance zwischen Leistungsfähigkeit und Modellkomplexität erzielt. Diese Konfiguration erreicht einen Hamming‑Loss von 0,0338, einen macro‑AUPRC von 0,4715, einen micro‑F1‑Score von 0,6979 und eine Subset‑Accuracy von 0,5723 – deutlich besser als bei tieferen rekurrenten Kombinationen. Gestapelte RNN‑Modelle steigern zwar die Erkennungsrate seltener Klassen, führen jedoch zu einem Rückgang der Präzision und einer erhöhten Gefahr von Overfitting.
Die Studie liefert klare empirische Evidenz dafür, dass mehr rekurrente Tiefe nicht zwangsläufig zu besseren Ergebnissen führt. Für die klinische Praxis bedeutet dies, dass ein moderates Modell – CNN plus ein BiLSTM – sowohl robust als auch effizient ist und die Anforderungen an Echtzeit‑Diagnostik besser erfüllt.