Bootstrap‑Rate beeinflusst Random‑Forest‑Regression stark
Random Forests werden üblicherweise mit einer Bootstrap‑Rate von 1,0 trainiert, das heißt, jedes Baumsample hat dieselbe Größe wie das komplette Trainingsset. In einer neuen Studie wurde untersucht, wie sich die Rate von 0,2 bis 5,0 auf die Regressionsleistung auswirkt. Dabei wurden 39 heterogene Datensätze und 16 verschiedene Random‑Forest‑Konfigurationen mit wiederholter Zweifach‑Cross‑Validation und mittlerem quadratischem Fehler bewertet.
Die Ergebnisse zeigen, dass das Anpassen der Bootstrap‑Rate die Leistung deutlich verbessern kann. Für 24 der Datensätze war eine Rate von ≤ 1,0 optimal, für 15 Datensätze lief die höchste Genauigkeit bei > 1,0, und nur bei vier Fällen war die Standardrate von 1,0 die beste Wahl. Die Studie legt einen klaren Zusammenhang zwischen den Eigenschaften der Daten und der bevorzugten Rate fest: Datensätze mit starken globalen Feature‑Ziel-Beziehungen profitieren von höheren Raten, während Datensätze mit hoher lokaler Zielvarianz niedrigere Raten bevorzugen.
Um diese Beobachtung weiter zu untermauern, wurden synthetische Datensätze mit kontrolliertem Rauschpegel erzeugt. Dort zeigte sich das klassische Bias‑Variance‑Trade‑off: In Rausch‑armen Szenarien senken höhere Raten den Bias, während in stark verrauschten Umgebungen niedrigere Raten die Varianz reduzieren. Diese Erkenntnisse unterstreichen, dass die Bootstrap‑Rate ein entscheidender Hyperparameter ist, der gezielt optimiert werden sollte, um Random‑Forest‑Regressionen bestmöglich zu nutzen.