Unterregional-Geokodierung globaler Katastrophen: Vollautomatischer Workflow
Die präzise Erfassung von Unterregionaldaten bei Katastrophen ist entscheidend für die Risikobewertung und die Reduktion von Katastrophenrisiken. Traditionelle Datenbanken wie EM‑DAT liefern Ortsangaben oft in unstrukturiertem Text, der sich schwer mit räumlichen Datensätzen verknüpfen lässt. Ein neuer Ansatz nutzt ein großes Sprachmodell, um diese Texte zu verarbeiten, zu bereinigen und anschließend geometrische Koordinaten zuzuordnen.
Der automatisierte Prozess verwendet GPT‑4o, um die Ortsinformationen zu extrahieren, und prüft die Ergebnisse anschließend gegen drei unabhängige Geoinformationsquellen: GADM, OpenStreetMap und Wikidata. Auf Basis der Übereinstimmung und Verfügbarkeit dieser Daten wird jeder Ort mit einem Zuverlässigkeitswert versehen, während gleichzeitig Unterregionalgeometrien generiert werden.
Wendet man diesen Workflow auf die EM‑DAT‑Daten von 2000 bis 2024 an, werden 14.215 Ereignisse an 17.948 einzigartigen Standorten geokodiert. Im Gegensatz zu früheren Methoden erfordert das Verfahren keine manuelle Eingriffe, deckt sämtliche Katastrophentypen ab, ermöglicht die Kreuzverifizierung über mehrere Quellen und lässt sich flexibel an bevorzugte Rahmensysteme anpassen.
Der Ansatz demonstriert das Potenzial von Sprachmodellen, geografische Informationen aus unstrukturiertem Text zuverlässig zu extrahieren und strukturiert darzustellen. Damit bietet er eine skalierbare und verlässliche Methode für weitere Analysen im Bereich Katastrophenmanagement und Risikobewertung.