SAM 3: Das neue Segmentierungsmodell erkennt Objekte per Konzept-Prompt

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Das Segment Anything Model 3 (SAM 3) ist ein einheitliches System, das Objekte in Bildern und Videos erkennt, segmentiert und verfolgt – alles anhand von Konzept-Prompts. Diese Prompts können kurze Nomenphrasen wie „gelber Schulbus“, Bildbeispiele oder eine Kombination aus beidem sein.

Mit Promptable Concept Segmentation (PCS) liefert SAM 3 für jedes passende Konzept eine Segmentierungsmaske und eine eindeutige Identität aller Instanzen. Zur Unterstützung von PCS hat das Team einen skalierbaren Daten‑Engine aufgebaut, der ein hochwertiges Datenset mit 4 Millionen einzigartigen Konzept‑Labels erzeugt, inklusive schwieriger negativer Beispiele.

Die Architektur von SAM 3 kombiniert einen bildbasierten Detektor und einen speicherbasierten Video‑Tracker, die beide dieselbe Backbone‑Netzwerk‑Architektur nutzen. Durch die Trennung von Erkennung und Lokalisierung mittels eines Presence‑Heads wird die Detektionsgenauigkeit deutlich erhöht.

In Tests übertrifft SAM 3 bestehende Systeme in der Promptable Concept Segmentation sowohl bei Bildern als auch bei Videos um das Doppelte. Außerdem verbessert es die bisherigen SAM‑Fähigkeiten bei visuellen Segmentierungsaufgaben. Das Modell sowie das neue Segment Anything with Concepts (SA‑Co) Benchmark‑Set werden als Open‑Source veröffentlicht.

Ähnliche Artikel