Neues Tool bewertet Maskenqualität bei sprachgesteuerter Audio-Visual-Segmentierung

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In einer wegweisenden Veröffentlichung stellt ein Forschungsteam ein neues Verfahren vor, das die Qualität von Segmentierungsmasken in sprachgesteuerten Audio‑Visual‑Segmentierungsaufgaben (Ref‑AVS) ohne Referenz‑Annotationen beurteilen kann. Das Konzept, genannt Mask Quality Assessment in the Ref‑AVS context (MQA‑RefAVS), fordert die Schätzung des Intersection‑over‑Union (IoU) einer vorgeschlagenen Maske, die Identifikation des Fehlertyps und die Empfehlung einer konkreten Qualitätskontrollmaßnahme.

Zur Unterstützung dieser Aufgabe wurde die Benchmark‑Suite MQ‑RAVSBench entwickelt, die eine breite Palette von geometrischen und semantischen Fehlern abdeckt. Auf dieser Grundlage präsentiert das Team den MQ‑Auditor, einen multimodalen großen Sprachmodell‑Auditor, der Audio‑, Video‑ und Text‑Signale sowie Maskeninformationen nutzt, um sowohl quantitative als auch qualitative Bewertungen zu liefern.

Umfangreiche Experimente zeigen, dass der MQ‑Auditor bestehende Open‑Source‑ und kommerzielle multimodale Sprachmodelle übertrifft. Darüber hinaus lässt er sich nahtlos in bestehende Ref‑AVS‑Systeme integrieren, um Segmentierungsfehler frühzeitig zu erkennen und die Gesamtleistung zu steigern. Der zugehörige Datensatz und der Code werden auf GitHub veröffentlicht, sodass die Community sofort von den Erkenntnissen profitieren kann.

Ähnliche Artikel