RFX: Random Forests mit GPU‑Beschleunigung und QLORA‑Kompression
Die neue Open‑Source‑Bibliothek RFX (Random Forests X) bringt die klassische Random‑Forest‑Methode von Breiman und Cutler in die moderne Python‑Welt und kombiniert sie mit GPU‑Beschleunigung sowie einer hochgradigen Kompression der Proximity‑Matrix. RFX v1.0 bietet ein vollständiges Klassifikationspaket: Schätzung des Out‑of‑Bag‑Fehlers, globale und lokale Wichtigkeitsmaße, Proximity‑Matrix mit QLORA‑Kompression, fallweise Analyse und interaktive Visualisierung über rfviz – alles sowohl auf CPU als auch auf GPU nutzbar.
Ein zentrales Problem bei Random Forests ist die Speicherbeschränkung der Proximity‑Matrix, die bei etwa 60.000 Proben die Analyse stark limitiert. RFX löst dieses Problem mit vier innovativen Ansätzen: Erstens reduziert QLORA (Quantized Low‑Rank Adaptation) die Speichernutzung von 80 GB auf 6,4 MB bei 100.000 Proben, wobei die geometrische Struktur zu 99 % erhalten bleibt. Zweitens nutzt die CPU‑TriBlock‑Methode eine obere Dreieck‑Speicherung kombiniert mit block‑sparsener Schwellenschaltung, was die Speicherlast um das 2,7‑fache senkt, ohne Qualitätsverlust. Drittens optimiert die GPU‑Batch‑Größe die Auslastung auf 95 % und viertens ermöglicht die GPU‑beschleunigte 3‑D‑MDS‑Visualisierung die direkte Berechnung von Einbettungen aus den Low‑Rank‑Faktoren mittels Power‑Iteration.
Die Implementierung wurde in vier Modi – GPU/CPU und fallweise bzw. nicht fallweise – getestet und liefert konsistente Ergebnisse. Im Vergleich zur CPU erzielt die GPU einen Geschwindigkeitsgewinn von 1,4‑fach bei der Berechnung globaler Wichtigkeitsmaße mit über 500 Bäumen. Die Proximity‑Berechnung skaliert von 1.000 bis über 200.000 Proben, wobei für große Datensätze die GPU‑QLORA‑Kompression erforderlich ist, während die CPU‑TriBlock‑Methode als Brücke für Mittelgroße Datensätze dient.
Für die kommende Version 2.0 sind Regression, unüberwachtes Lernen, CLIQUE‑Wichtigkeit und RF‑GAP‑Proximity geplant, wodurch RFX zu einer umfassenden, produktionsreifen Lösung für Random‑Forest‑Analysen wird.