Gaussian Mixture Model in Excel: Schritt für Schritt mit EM-Algorithmus
Der Artikel führt das Gaussian Mixture Model (GMM) als natürliche Weiterentwicklung von k‑Means ein. Im Gegensatz zu k‑Means, das Punkte mit harten Grenzen zu Clustern zuordnet, nutzt GMM die Varianzen der Daten und die Mahalanobis‑Distanz, um die Abstände genauer zu messen.
Durch den Expectation–Maximization‑Algorithmus (EM) werden Wahrscheinlichkeiten für die Zugehörigkeit jedes Punktes zu den einzelnen Gauss‑Verteilungen gelernt. EM ist die allgemeine Form der Lloyd‑Methode und besteht aus abwechselnden Erwartungs‑ und Maximierungsschritten.
Im Beitrag wird gezeigt, wie man EM Schritt für Schritt in Excel umsetzt – zunächst in einer eindimensionalen, dann in einer zweidimensionalen Variante. Mit einfachen Formeln werden die Mittelwerte, Varianzen und die Wahrscheinlichkeiten berechnet, während die zugehörigen Gauß‑Kurven bzw. Ellipsen im Diagramm ihre Positionen anpassen. Die Mittelwerte verschieben sich, die Varianzen passen sich an und die Formen stabilisieren sich allmählich um die wahre Struktur der Daten.
GMM bietet damit eine reichhaltigere und flexiblere Möglichkeit, Cluster zu modellieren. Sobald der Prozess in einer Tabellenkalkulation sichtbar gemacht wird, wird die Methode intuitiver und leichter nachvollziehbar.