FedGEM: Federiertes EM für unbekannte Clusterzahl – neue Methode überzeugt In der Welt der verteilten Datenanalyse stellt die Frage, wie viele Cluster in einem Netzwerk von Clients existieren, ein zentrales Problem dar. Die Autoren des neuen Papers zeigen, dass die Clusterzahl häufig nicht im Voraus bekannt ist und dass die lokalen Datensätze der Clients unterschiedliche, aber teilweise überlappende Clusterstrukturen aufweisen können. arXiv – cs.LG 30.01.2026 05:00
Neues Verfahren: Cone Collapse verbessert nichtnegative Matrixfaktorisierung Die nichtnegative Matrixfaktorisierung (NMF) bleibt ein zentrales Werkzeug, um aus großen Datensätzen kompakte, partsbasierte Darstellungen zu extrahieren. Besonders in der Clusteranalyse wird NMF oft mit orthogonalen Varianten kombiniert, damit die Zeilen der Repräsentationsmatrix als weiche Clusterindikatoren fungieren. Bisher wurden die Algorithmen jedoch überwiegend aus einer Optimierungsperspektive entwickelt und nutzten die zugrunde liegende konische Geometrie nicht vollständig aus. arXiv – cs.LG 10.12.2025 05:00
Synthetische Daten enthüllen mehr als gedacht: Lecks durch Clustering‑Angriffe Generative KI‑Modelle werden zunehmend eingesetzt, um sensible Trainingsdaten durch synthetische Versionen zu ersetzen. Doch neue Forschung zeigt, dass diese „sicheren“ Daten immer noch vertrauliche Informationen preisgeben können. Durch strukturelle Überschneidungen im Datenraum lassen sich reale Trainingsbeispiele aus synthetischen Stichproben rekonstruieren. arXiv – cs.LG 09.12.2025 05:00
Machine Learning Adventskalender Tag 4: k‑Means in Excel In diesem Beitrag wird gezeigt, wie man k‑Means‑Clustering in Excel implementiert und damit ein echtes Machine‑Learning‑Erlebnis simuliert. Towards Data Science 04.12.2025 16:30
Automatisierte Clusterbildung für Energieverbrauchsprofile mit Pretopologie Ein neues Verfahren nutzt Pretopologie, um Energieverbrauchsprofile über ein großes, verteiltes Gebiet zu modellieren und zu klassifizieren. Ziel ist es, die Verwaltung des Gebäudeverbrauchs zu optimieren, ohne jedes Gebäude einzeln zu prüfen – ein Ansatz, der Zeit, Geld und Fachpersonal spart. arXiv – cs.AI 04.12.2025 05:00
Neues Verfahren lernt maßgeschneiderte Kategorienbeziehungen für bessere Cluster In der Clusteranalyse von realen Datensätzen sind kategoriale Attribute allgegenwärtig. Anders als numerische Werte, für die der euklidische Abstand definiert ist, fehlt bei kategorialen Attributen eine klare Beziehung zwischen den möglichen Kategorien. Das erschwert die Entdeckung kompakter Cluster. arXiv – cs.LG 13.11.2025 05:00
Neuer Ansatz zur Patientenclusterung bei ALS verbessert Überlebensanalyse Forscher haben einen innovativen Clustering-Ansatz entwickelt, der die Sequenzen von ALS‑Patienten anhand eines deklarativen Fortschrittsscores gruppiert. Durch die Einbindung medizinischer Expertise und die Kombination mehrerer beschreibender Variablen entstehen neue Distanzmaße, die sowohl klassische als auch schwach überwachte Lernmethoden nutzen. arXiv – cs.LG 05.11.2025 05:00
Neuer adaptiver Mean-Shift-Algorithmus verbessert Cluster-Erkennung Ein neuer Ansatz für die Clusteranalyse: Der adaptive Mean‑Shift‑Algorithmus aus der aktuellen arXiv‑Veröffentlichung nutzt lokale Abstandsdichten, um die Größe eines Clusters direkt an einem Punkt zu bestimmen. Durch das Auffinden eines lokalen Minimums in der Dichteverteilung der Entfernungen kann die Anzahl der Nachbarn im jeweiligen Cluster geschätzt werden. arXiv – cs.LG 19.08.2025 05:00