HypCSE: Hyperbolische Entropie für hierarchisches Clustering
Hierarchisches Clustering ist ein zentrales Verfahren im maschinellen Lernen, das Datenpunkte in baumartige Strukturen, sogenannte Dendrogramme, gruppiert. Traditionelle Ansätze stoßen jedoch häufig an zwei Grenzen: Sie besitzen kein übergeordnetes Optimierungsziel und berücksichtigen die zugrunde liegende Graphstruktur oft vernachlässigt, indem sie auf statischen oder vollständig definierten Graphen arbeiten.
Die neue Methode HypCSE (Hyperbolic Continuous Structural Entropy) löst diese Probleme, indem sie die Datenpunkte in einen hyperbolischen Raum abbildet und die kontinuierliche Struktur-Entropie (CSE) auf graphenverbesserten Strukturen minimiert. Durch den Einsatz von hyperbolischen Graph-Neuronalen Netzwerken werden die Knoten im hyperbolischen Raum kodiert, und die CSE wird als differenzierbare Zielfunktion formuliert, indem die niedrigste gemeinsame Vorfahrstruktur (LCA) auf Bäumen genutzt und anschließend in eine kontinuierliche Form geglättet wird.
Ein entscheidender Schritt ist die Lernstrategie für die Graphstruktur (GSL), die während des Trainings die Verbindungen zwischen den Knoten anpasst, um die Hierarchie der Datenpunkte optimal abzubilden. Diese dynamische Anpassung ermöglicht es HypCSE, die Entropie effizient zu reduzieren und dadurch präzisere Dendrogramme zu erzeugen.
Umfangreiche Tests auf sieben unterschiedlichen Datensätzen zeigen, dass HypCSE die Leistung herkömmlicher Verfahren deutlich übertrifft. Das Verfahren bietet damit einen vielversprechenden Ansatz für die strukturierte Analyse komplexer Datensätze, bei dem sowohl die geometrische Einbettung als auch die graphbasierte Optimierung im Fokus stehen.