Neues Verfahren verbessert Clustering bei unvollständigen Mehransichtsdaten

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Ein neues Verfahren namens DGIMVCM (Dynamic Deep Graph Learning for Incomplete Multi‑View Clustering with Masked Graph Reconstruction Loss) wurde auf arXiv veröffentlicht und verspricht, die Genauigkeit von Clustering‑Algorithmen bei unvollständigen Mehransichtsdaten deutlich zu steigern.

Traditionelle Ansätze für das Incomplete Multi‑View Clustering (IMVC) bauen häufig auf statischen K‑Nearest‑Neighbors‑Graphen auf. Diese Graphen sind jedoch anfällig für Rauschen und führen zu einer schwächeren Robustheit der Topologie. Zudem nutzen viele Methoden den Mean‑Squared‑Error‑Loss direkt zwischen rekonstruierter und sparsamer Adjazenzmatrix, was bei der Optimierung zu starkem Gradientenrauschen führt.

DGIMVCM begegnet diesen Problemen, indem es zunächst einen fehlertoleranten globalen Graphen aus den Rohdaten erstellt. Anschließend extrahiert ein Graph‑Convolution‑Embedding‑Layer grundlegende Merkmale und baut dynamische, ansichtsspezifische Graphstrukturen auf, die durch den globalen Graphen für fehlende Ansichten imputiert werden. Durch graphenstruktur‑kontrastives Lernen wird die Konsistenz zwischen den ansichtsspezifischen Graphen sichergestellt. Ein Graph‑Self‑Attention‑Encoder verarbeitet die hoch‑level‑Repräsentationen und wird mit einem maskierten Graph‑Reconstruction‑Loss optimiert, der das Rauschen reduziert.

Erste Experimente zeigen, dass DGIMVCM die Cluster‑Qualität gegenüber bestehenden GNN‑basierten IMVC‑Methoden signifikant verbessert und dabei robuster gegenüber fehlenden Daten bleibt. Das Verfahren eröffnet neue Möglichkeiten für die Analyse komplexer, mehrdimensionaler Datensätze in Bereichen wie Bioinformatik, Computer Vision und Social‑Network‑Analyse.