Entscheidungsbaum-Classifier: Wie Gini und Entropie den besten Schnitt bestimmen

Towards Data Science Original ≈1 Min. Lesezeit
Anzeige

Im letzten Beitrag haben wir gesehen, wie ein Entscheidungsbaum-Regressor die optimale Trennung findet, indem er die mittlere quadratische Fehler minimiert. Heute wechseln wir zum Klassifikationsbereich und untersuchen, wie ein Decision‑Tree‑Classifier bei einer einzigen numerischen Variable und zwei Klassen entscheidet, wo die Daten geschnitten werden sollen.

Der Klassifikator nutzt dafür Impuritätsmaße wie Gini‑Index und Entropie, um die Qualität eines möglichen Schnittpunkts zu bewerten. Auch ohne die genauen Formeln zu durchrechnen, lässt sich anhand einer Visualisierung bereits gut abschätzen, welche Trennpunkte plausibel sind. Doch welcher Punkt ist tatsächlich der beste und inwieweit beeinflussen die beiden Impuritätsmaße die Wahl?

Wir bauen den ersten Split Schritt für Schritt in Excel auf, um die Wirkung von Gini und Entropie zu beobachten. Durch die praktische Umsetzung wird deutlich, wie die Wahl des Impuritätsmaßes die Struktur des Baumes und damit die Klassifikationsleistung beeinflusst.

Ähnliche Artikel