LOF in Excel: 9. Tag des Machine‑Learning‑Adventkalenders
In diesem Beitrag wird der Local Outlier Factor (LOF) in Excel Schritt für Schritt erklärt. Dabei greifen wir auf drei zentrale Konzepte zurück: die Berechnung von Distanzen und Nachbarn, die Erreichbarkeitsabstände sowie die finale LOF‑Bewertung.
Der erste Schritt besteht darin, für jedes Datenpunkt die Distanz zu seinen k nächsten Nachbarn zu bestimmen. Diese Nachbarschaft bildet die Basis für die weitere Analyse und wird in Excel mithilfe einfacher Formeln berechnet.
Im zweiten Schritt werden die Erreichbarkeitsabstände ermittelt. Diese geben an, wie weit ein Punkt von seiner Nachbarschaft entfernt ist, und berücksichtigen dabei die Distanzen zu den Nachbarn selbst. Auch hier lässt sich die Berechnung in Excel umsetzen, indem man die maximalen Distanzen innerhalb der Nachbarschaft verwendet.
Schließlich wird der LOF‑Score berechnet, indem die Erreichbarkeitsabstände des Punktes mit denen seiner Nachbarn verglichen werden. Ein Score größer als 1 weist auf eine mögliche Anomalie hin, während Scores nahe 1 auf normale Punkte deuten.
Um die Funktionsweise zu verdeutlichen, werden in Excel kleine Datensätze verwendet. Dabei zeigen sich zwei scheinbar offensichtliche Ausreißer, die jedoch je nach Algorithmus unterschiedlich bewertet werden. Dieses Beispiel unterstreicht, dass es im unüberwachten Lernen keine eindeutige „wahre“ Anomalie gibt – vielmehr hängt die Bewertung von der gewählten Definition ab.
Die zentrale Erkenntnis ist, dass das Verständnis der zugrunde liegenden Definitionen die wahre Kompetenz im Bereich des unüberwachten Lernens ausmacht. Durch die klare Darstellung in Excel wird gezeigt, wie man diese Konzepte praktisch anwendet und interpretiert.