Schwedische Registerdaten in Textform: Transformer vorhersagen Wohnortwechsel
Forscher haben riesige schwedische Registerdaten in semantisch reiche Textsequenzen umgewandelt, um zwei langjährige Probleme der Datenanalyse zu lösen: die hohe Kardinalität kategorialer Variablen und inkonsistente Codierungsschemata über die Zeit hinweg.
Durch die Umwandlung von 6,9 Millionen Personen (2001‑2013) in narrative Lebenswege können demografische Angaben, jährliche Wohnortwechsel, Arbeits- und Bildungsveränderungen sowie Einkommens- und Familienverhältnisse in einer einzigen Textsequenz zusammengefasst werden. Diese Texte ermöglichen es, die zeitliche und semantische Struktur der Lebensläufe präzise zu erfassen.
Mit diesen Lebenswegen wurden die Wohnortwechsel der Personen in den Jahren 2013‑2017 vorhergesagt. Dabei wurden verschiedene NLP-Architekturen – darunter LSTM, DistilBERT, BERT und Qwen – miteinander verglichen.
Die Ergebnisse zeigen, dass sequenzielle und transformerbasierte Modelle die zeitlichen und semantischen Zusammenhänge deutlich besser abbilden als herkömmliche Baseline‑Modelle. Die textbasierte Darstellung bewahrt wesentliche Informationen über individuelle Lebenspfade und unterstützt damit komplexe, skalierbare Vorhersagen.
Da nur wenige Länder über vergleichbare, longitudinalen Mikrodaten verfügen, bietet dieses schwedische Datenset ein einzigartiges Testfeld für neue Sequenzmodellierungsansätze. Die Studie demonstriert, dass die Kombination aus reichhaltigen Registerdaten und modernen Sprachmodellen die longitudinale Analyse in den Sozialwissenschaften erheblich voranbringen kann.