XGBoost-Modelle profitieren von Zeit‑Aggregationsfeatures – neue Studie

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Eine aktuelle Untersuchung auf arXiv (2601.10019v1) zeigt, dass XGBoost‑Modelle für die Vorhersage von Klick‑Durchsätzen (CTR) durch gezielte Zeit‑Aggregationsfeatures deutlich verbessert werden können. Die Analyse basiert auf dem Avazu‑Datensatz, der mit strengen „out‑of‑time“ Splits und einer No‑Lookahead‑Beschränkung für Features ausgestattet ist. Für jede Stunde H dürfen nur Impressionen aus Stunden vor H verwendet werden.

Im Vergleich zu einem starken Basis‑Target‑Encoding‑Modell, das ausschließlich auf historischen Zielwerten beruht, wurden Modelle mit zusätzlichen Zeit‑Aggregationsfeatures getestet. Dabei wurden verschiedene Fenster‑Designs – trailing, event‑count, gap und bucketized – evaluiert. Die Ergebnisse zeigen, dass ein trailing‑Fenster die ROC‑AUC um etwa 0,0066 bis 0,0082 und die PR‑AUC um 0,0084 bis 0,0094 gegenüber dem reinen Target‑Encoding steigert.

Innerhalb des Design‑Grid liefert das event‑count‑Fenster die einzige konsistente Verbesserung gegenüber dem trailing‑Fenster, jedoch nur in geringem Maße. Gap‑ und bucketized‑Fenster schneiden in diesem Datensatz und Protokoll schlechter ab. Die Studie empfiehlt daher, als Standard die trailing‑Fenster‑Strategie zu verwenden und bei Bedarf ein event‑count‑Fenster einzusetzen, wenn marginale ROC‑AUC‑Gewinne entscheidend sind.

Ähnliche Artikel