UrbanLN: Bessere Stadtregionen durch lange Beschreibungen und Rauschunterdrückung
In der Stadtforschung gewinnt das Lernen von Regionrepräsentationen zunehmend an Bedeutung, weil es ermöglicht, aus unbeschrifteten Bilddaten aussagekräftige Merkmale zu extrahieren. So wie das Aussehen eines Menschen Hinweise auf seine Gesundheit liefert, fungiert die visuelle Darstellung einer Stadt als ihr „Porträt“, das versteckte sozio‑ökonomische und ökologische Informationen enthält.
Neueste Ansätze nutzen große Sprachmodelle (LLMs), um textuelles Wissen in bildbasierte Lernprozesse einzubinden. Dabei stoßen sie jedoch auf zwei zentrale Hindernisse: Erstens ist es schwierig, fein abgestufte visuelle Details mit langen Beschreibungen in Einklang zu bringen. Zweitens führen die in den LLM‑Generierten Texten enthaltenen Fehler zu einer suboptimalen Wissensintegration.
Um diese Probleme zu überwinden, stellt die Studie das neue Pre‑Training‑Framework UrbanLN vor. Es kombiniert Long‑Text‑Awareness mit Rauschunterdrückung und nutzt eine informationsbewahrende Stretch‑Interpolation, die lange Beschreibungen exakt an die feinen visuellen Semantik‑Elemente anpasst. Zusätzlich wird ein zweistufiges Optimierungsverfahren eingesetzt: Auf Datenebene generiert ein Multi‑Model‑Collaboration‑Pipeline automatisch vielfältige und zuverlässige Beschreibungen ohne menschliches Eingreifen, während auf Modellebene ein momentum‑basierter Self‑Distillation‑Mechanismus stabile Pseudo‑Ziele erzeugt, die das robuste Cross‑Modal‑Learning unter verrauschten Bedingungen fördern.
Durch umfangreiche Experimente in vier realen Städten und verschiedenen Down‑stream‑Aufgaben konnte UrbanLN die Leistung der Regionrepräsentationen deutlich steigern. Die Ergebnisse zeigen, dass die Kombination aus langen Texten, gezielter Interpolation und Rauschunterdrückung einen wichtigen Schritt zur präziseren Analyse urbaner Landschaften darstellt.