IPBC: Interaktives, projectionsbasiertes Clustering für hochdimensionale Daten
In vielen wissenschaftlichen und industriellen Bereichen wachsen hochdimensionale Datensätze stetig, doch die klassische Clusterbildung bleibt schwierig. Die üblichen Distanzmaße verlieren an Aussagekraft, und bei der Projektion in zwei oder drei Dimensionen neigen Cluster dazu, sich zu überlappen oder zu kollabieren.
Um dieses Problem zu lösen, wurde das Interactive Project-Based Clustering (IPBC) entwickelt. Das System wandelt die Clusteraufgabe in einen iterativen, von Menschen geleiteten Analyseprozess um. Nutzer können die Projektion aktiv anpassen, indem sie Ansichten drehen und einfache Einschränkungen wie „must‑link“ oder „cannot‑link“ setzen.
Durch einen nichtlinearen Projektionsmodul und einen Feedback‑Loop werden die eingegebenen Constraints in das Optimierungsziel integriert. So werden semantisch verwandte Punkte immer näher gebracht, während unverbundene Punkte weiter voneinander entfernt werden. Sobald die 2‑D‑Darstellung ausreichend strukturiert ist, kann ein herkömmlicher Clustering‑Algorithmus zuverlässig die Gruppen erkennen.
Ein zusätzlicher Erklärungsmechanismus übersetzt die entdeckten Cluster zurück in den ursprünglichen Merkmalsraum und liefert interpretierbare Regeln oder Feature‑Ranglisten. Experimente an verschiedenen Benchmark‑Datensätzen zeigen, dass bereits mit wenigen Interaktionen die Clusterqualität deutlich steigt.