Neues halbüberwachtes Modell verbessert Integration fehlender Multi-View-Daten
Forscher haben ein neues halbüberwachtes generatives Modell vorgestellt, das die Integration von Multi-View-Daten mit fehlenden Ansichten und Labels deutlich verbessert. Das Modell kombiniert die Vorteile probabilistischer Ansätze mit dem Information-Bottleneck (IB)-Prinzip und nutzt gleichzeitig unlabeled Daten, um einen gemeinsamen latenten Raum zu lernen.
Im Gegensatz zu bisherigen Methoden, die ausschließlich auf vollständig gelabelten Daten basieren, maximiert das neue Modell die Wahrscheinlichkeit der unlabeled Samples. Dadurch entsteht ein latenter Raum, der sowohl die IB-Informationen aus den gelabelten Daten als auch die zusätzlichen Muster aus den unlabeled Daten integriert.
Ein weiterer Schwerpunkt liegt auf der Maximierung der gegenseitigen Information zwischen den Ansichten im latenten Raum. Diese Technik stärkt die gemeinsame Informationsextraktion und sorgt dafür, dass das Modell robust gegenüber fehlenden Ansichten bleibt.
In Tests mit Bilddaten und Multi-Omics-Datensätzen zeigte das Modell eine überlegene Vorhersage- und Imputationsleistung, selbst bei stark eingeschränkten gelabelten Stichproben. Damit eröffnet die Methode neue Möglichkeiten für die Analyse komplexer, realer Datensätze, bei denen Datenlücken häufig auftreten.