Wetter- und Zugdaten vereint: neues finnisches Verspätungsdatenset
Ein brandneues, öffentlich zugängliches Datenset verbindet finnische Zugverkehrsdaten mit synchronisierten Wettermessungen aus 2018 bis 2024. Durch die Kombination von operativen Kennzahlen der Digitraffic Railway Traffic Service und Messwerten von 209 Umweltstationsnetzwerken entsteht ein umfassendes Bild der Faktoren, die zu Verspätungen führen.
Das Datenset umfasst rund 38,5 Millionen Beobachtungen entlang des 5.915‑Kilometer‑langen Schienennetzes Finnlands. Es enthält 28 sorgfältig entwickelte Features, die sowohl betriebliche als auch meteorologische Variablen abbilden. Die räumlich‑zeitliche Ausrichtung erfolgt mithilfe der Haversine‑Distanz, wodurch jede Zugstation exakt mit den nächstgelegenen Wetterstationen verknüpft wird.
Zur Datenbereinigung wurden gezielte Strategien eingesetzt: fehlende Werte werden über räumliche Fallback‑Algorithmen ergänzt, zeitliche Merkmale werden zyklisch codiert und Wetterdaten werden robust skaliert, um Sensorausreißer zu minimieren. Diese Vorverarbeitung sorgt für hohe Datenqualität und ermöglicht präzise Analysen.
Die Analyse zeigt deutliche saisonale Muster: Im Winter steigen die Verspätungsraten über 25 % und es entstehen geographische Hotspots in zentralen und nördlichen Regionen Finnlands. Ein Baseline‑Experiment mit XGBoost‑Regression erreichte einen mittleren absoluten Fehler von 2,73 Minuten bei der Vorhersage von stationspezifischen Verspätungen, was die Eignung des Datensets für maschinelles Lernen unterstreicht.
Das neue Datenset eröffnet Forschern und Verkehrsplanern die Möglichkeit, die Zuverlässigkeit des finnischen Schienenverkehrs systematisch zu untersuchen und datenbasierte Optimierungsstrategien zu entwickeln. Es stellt einen wichtigen Schritt dar, um Wetterbedingungen und betriebliche Abläufe in einer einzigen Analyseplattform zu integrieren.