Isolation Forest in Excel: Schnell anomale Punkte erkennen

Towards Data Science Original ≈1 Min. Lesezeit
Anzeige

Der Isolation Forest Algorithmus klingt zwar technisch, ist aber in seiner Idee simpel: Punkte werden durch zufällige Teilungen isoliert. Je schneller ein Punkt isoliert wird, desto wahrscheinlicher ist er ein Anomalie; braucht er viele Teilungen, gilt er als normal.

Mit dem kleinen Datensatz 1, 2, 3, 9 lässt sich das Prinzip anschaulich nachvollziehen. Man baut mehrere zufällige Entscheidungsbäume, zählt für jeden Punkt, wie viele Teilungen nötig sind, und mittelt diese Tiefen. Die durchschnittlichen Tiefen werden anschließend in Anomalie‑Scores umgewandelt: kurze Tiefen führen zu Scores nahe 1, lange Tiefen zu Scores nahe 0.

Die Umsetzung in Excel ist zwar mühsam, doch der Algorithmus selbst bleibt elegant. Er skaliert problemlos auf viele Merkmale, setzt keine Annahmen über Verteilungen voraus und funktioniert sogar mit kategorialen Daten. Was Isolation Forest besonders macht, ist die Frage, die er stellt: „Wie schnell kann ich diesen Punkt isolieren?“ – statt „Was ist normal?“

Ähnliche Artikel