RaX-Crash: Effiziente, erklärbare Pipeline zur Unfallverletzungsvorhersage in NYC

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

New York City meldet jährlich über 100.000 Verkehrsunfälle, die erhebliche Verletzungs- und Gesundheitsbelastungen verursachen. Mit dem neuen Ansatz RaX-Crash wird eine ressourcenschonende und leicht verständliche Modellpipeline vorgestellt, die auf dem offiziellen NYC Motor Vehicle Collisions Datensatz arbeitet.

RaX-Crash verbindet drei verknüpfte Tabellen mit mehreren Millionen Einträgen, erstellt ein einheitliches Merkmalsschema in partitioniertem Speicher und trainiert kompakte Baum-basierte Ensembles – Random Forest und XGBoost – auf sorgfältig entwickelten tabellarischen Features. Diese Modelle werden mit lokal eingesetzten kleinen Sprachmodellen (SLMs) verglichen, die mit textuellen Zusammenfassungen gefüttert werden.

Auf einem zeitlich getrennten Testset erzielen XGBoost und Random Forest Genauigkeiten von 0,7828 bzw. 0,7794, deutlich besser als die SLMs mit 0,594 und 0,496. Eine Analyse der Klassenungleichgewichte zeigt, dass einfache Klassengewichtungen die Erkennung tödlicher Verletzungen verbessern, ohne die Gesamtgenauigkeit stark zu beeinträchtigen. SHAP-Attributionen verdeutlichen, dass menschliche Verwundbarkeitsfaktoren, Zeitpunkte und Standorte die wichtigsten Treiber der prognostizierten Schweregrade sind.

Insgesamt demonstriert RaX-Crash, dass interpretierbare, kleine Modellensembles weiterhin starke Baselines für städtische Verletzungsanalysen darstellen. Die Kombination aus tabellarischen Vorhersagen und SLM-generierten Narrativen verbessert die Kommunikation, ohne die Skalierbarkeit zu gefährden.

Ähnliche Artikel