CNNs triumphieren bei Baumkronen‑Segmentierung mit nur 150 Bildern

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die Erkennung von Baumkronen aus Luftaufnahmen ist ein entscheidender Schritt für Umweltüberwachung, Stadtplanung und Ökosystemanalysen. In der Solafune Tree Canopy Detection‑Wettbewerb wurde ein besonders knapper Datensatz mit lediglich 150 annotierten Bildern bereitgestellt, um die Herausforderungen bei der Arbeit mit extrem begrenzten Daten zu simulieren.

Forscher haben fünf prominente Architekturen – YOLOv11, Mask R‑CNN, DeepLabv3, Swin‑UNet und DINOv2 – unter die Lupe genommen, um herauszufinden, welche Modelle unter diesen Bedingungen am besten funktionieren. Die Ergebnisse zeigen deutlich, dass vortrainierte Convolutional‑Neural‑Networks (CNNs) wie YOLOv11 und Mask R‑CNN die Modelle mit den stärksten Generalisierungsfähigkeiten darstellen.

Im Gegensatz dazu schneiden die transformer‑basierten Ansätze DeepLabv3, Swin‑UNet und DINOv2 deutlich schlechter ab. Gründe hierfür sind die hohe Datenanforderung von Vision Transformers, fehlende starke induktive Biases und die Diskrepanz zwischen semantischer und Instanzsegmentierung, die bei Baumkronen besonders relevant ist.

Die Studie unterstreicht, dass Transformer‑Architekturen in Low‑Data‑Szenarien ohne umfangreiche Vortrainings oder gezielte Augmentationsstrategien kaum konkurrenzfähig sind. Gleichzeitig verdeutlicht sie, wie wichtig die Wahl der Segmentierungsaufgabe für die Modellleistung ist.

Durch eine detaillierte Analyse von Trainingsstrategien, Augmentationspolicies und dem Verhalten der Modelle unter den strengen Datenbeschränkungen liefert die Arbeit wertvolle Einblicke. Letztlich bleibt die leichtgewichtige CNN‑Basierte Methode die verlässlichste Wahl für die Baumkronen‑Segmentierung bei begrenzten Bilddaten.

Ähnliche Artikel