XGBoost-Subsampling erschwert das Lernen von Verhältnis-Interaktionen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Viele praxisnahe Aufgaben enthalten Signale, die erst sichtbar werden, wenn mehrere Rohmessungen kombiniert werden – typische Beispiele sind Verhältnisse und Raten. In Gradient‑Boosted Trees erfolgt diese Kombination jedoch nicht explizit; das Modell muss sie durch koordinierte Splits auf den einzelnen Merkmalen selbst herstellen. In einer neuen Untersuchung wurde geprüft, ob das intra‑Tree‑Spalten‑Subsampling von XGBoost diesen Syntheseprozess erschwert.

Die Autoren verwendeten zwei synthetische Datengenerierungsprozesse mit einer „Cancellation“-Struktur: Zwei Grundmerkmale teilen einen starken Störfaktor, während das Ziel von einem kleineren Differenzfaktor abhängt. Ein Log‑Verhältnis eliminiert den Störfaktor und isoliert das Signal. Durch Variation der Parameter colsample_bylevel und colsample_bynode (0,4; 0,6; 0,8; 0,9) – wobei besonders mildes Subsampling (≥ 0,8) betont wurde – zeigte sich, dass intra‑Tree‑Subsampling die Test‑PR‑AUC im reinen Primärmerkmals‑Set senkt. Im Hauptprozess erreichte die relative Abnahme bei beiden Parametern auf 0,4 sogar 54 %. Sobald jedoch das gezielt erstellte Verhältnismerkmal im Datensatz enthalten war, verschwand der Effekt weitgehend.

Ein zusätzliches Pfad‑basierte Co‑Usage‑Metrik fiel in denselben Zellen, in denen die Leistung zurückging, was die Beobachtung bestätigt. Praktisch bedeutet dies: Wenn in einem Problem Verhältnis‑ähnliche Strukturen plausibel sind, sollte man intra‑Tree‑Subsampling vermeiden oder die entsprechenden Verhältnis‑Features explizit einbauen, um die Lernfähigkeit von XGBoost nicht zu beeinträchtigen.

Ähnliche Artikel