VG3T: Transformer liefert 3D‑Szenen aus mehreren Ansichten effizienter

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die Generierung einer zusammenhängenden 3‑D‑Szenen­darstellung aus mehreren Ansichten bleibt eine zentrale, aber schwierige Aufgabe in der Computer‑Vision. Bestehende Verfahren stoßen häufig an Grenzen, wenn sie die Informationen aus verschiedenen Blickwinkeln zusammenführen, was zu fragmentierten 3‑D‑Modellen und suboptimalen Ergebnissen führt.

Mit dem neuen VG3T‑Modell wird dieses Problem angegangen. VG3T ist ein reines Feed‑Forward-Netzwerk, das direkt aus mehreren Ansichten eine 3‑D‑semantische Besetzung in Form von Gaußschen Oberflächen vorhersagt. Im Gegensatz zu früheren Ansätzen, die Gaußschen aus einzelnen Bildern ableiten, erzeugt VG3T die Gaußschen gleichzeitig in einem gemeinsamen, mehransichtigen Kontext. Dadurch werden Fragmentierung und Inkonsistenz, die bei sequentieller Verarbeitung entstehen, vermieden und eine einheitliche Darstellung von Geometrie und Semantik erreicht.

Zur Verbesserung der Genauigkeit wurden zwei zentrale Komponenten eingeführt: Grid‑Based Sampling, das die Auswahl der Punkte für die Gaußschen gleichmäßig über das Raumgitter verteilt, und Positional Refinement, das die räumliche Präzision der Gaußschen korrigiert und damit die typische Dichte‑Abhängig‑von‑Entfernung‑Verzerrung reduziert. Diese Ergänzungen ermöglichen eine robustere und konsistentere Modellierung.

Die Ergebnisse auf dem nuScenes‑Benchmark sind beeindruckend: VG3T erzielt eine Steigerung von 1,7 % im mIoU‑Score und benötigt gleichzeitig 46 % weniger primitive Elemente als das bisher beste Verfahren. Diese Kombination aus höherer Genauigkeit und deutlich geringerer Rechenkomplexität unterstreicht die Leistungsfähigkeit des neuen Ansatzes.

Ähnliche Artikel