Robuste Clusterung kategorialer Daten durch mehrstufiges, konkurrierendes Lernen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Eine brandneue Methode zur Clusterung von kategorialen Datensätzen wurde vorgestellt, die die Herausforderungen traditioneller Distanzmetriken elegant löst. Durch die Begrenztheit der möglichen Werte in kategorialen Merkmalen entstehen häufig überlappende, kompakte Cluster – ein Phänomen, das in der Diskreten Distanzwelt besonders stark ausgeprägt ist.

Um dieses Phänomen zu adressieren, präsentiert die Arbeit den Multi‑Granular Competitive Penalization Learning (MGCPL)-Algorithmus. MGCPL lässt potenzielle Cluster in mehreren Stufen interagieren und sich selbst anpassen, sodass sie schrittweise zu einer natürlichen Anzahl kompakter Cluster konvergieren. Dieser Ansatz erkennt die verschachtelte Struktur von Daten, ohne auf klassische euklidische Distanzen angewiesen zu sein.

Zur weiteren Optimierung wird die Cluster Aggregation Strategy based on MGCPL Encoding (CAME) eingesetzt. Hierbei werden die Datenobjekte zunächst anhand der erlernten mehrstufigen Verteilungen codiert und anschließend auf den resultierenden Embeddings final clusteriert. Diese Kombination ermöglicht eine präzise und robuste Clusterbildung.

Die Ergebnisse zeigen, dass der MCDC-Ansatz – die Kombination aus MGCPL und CAME – die verschachtelte Verteilung von Multi‑Granular‑Clustern automatisch erkundet und dabei besonders robust gegenüber unterschiedlichen Domänen ist. Dank seiner linearen Zeitkomplexität skaliert die Methode problemlos auf große Datensätze und eignet sich hervorragend als Vorpartitionierung für verteilte Rechenknoten, um die Effizienz von Distributed‑Computing-Workflows zu steigern.

Ähnliche Artikel