Neuer Ansatz PSCA verbessert domänenübergreifende Bildsuche

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

Ein neues Verfahren namens Prototype-Based Semantic Consistency Alignment (PSCA) verspricht, die Suche nach Bildern in unterschiedlichen Domänen deutlich zu optimieren. Durch die Übertragung von Wissen aus einer beschrifteten Quelldomäne auf eine unbeschriftete Zieldomäne wird die Effektivität von Retrieval-Systemen gesteigert, während gleichzeitig die Unterschiede zwischen den Domänen reduziert werden.

Aktuelle Methoden stoßen dabei auf mehrere grundlegende Schwächen: Sie vernachlässigen die semantische Ausrichtung auf Klassenebene und fokussieren sich zu stark auf die Paarweise Ausrichtung einzelner Proben. Zudem fehlt es an zuverlässigen Pseudo-Labels oder geometrischen Leitlinien, die die Richtigkeit der Labels bewerten können. Schließlich werden die ursprünglichen Features direkt quantisiert, was die Qualität der späteren Hash-Codes beeinträchtigt.

PSCA löst diese Probleme in zwei aufeinanderfolgenden Schritten. Im ersten Schritt werden orthogonale Prototypen erstellt, die eine klare Klassenstruktur schaffen und gleichzeitig die Intra-Klassen-Varianz reduzieren. Durch die Messung der geometrischen Nähe wird die Zuverlässigkeit der Pseudo-Labels angepasst, sodass nur konsistente Labels stärker gewichtet werden. Die daraus resultierende Zugehörigkeitsmatrix und die Prototypen ermöglichen eine Rekonstruktion der Features, wodurch die Quantisierung auf den rekonstruierten statt auf den ursprünglichen Features erfolgt.

Im zweiten Schritt werden domänenspezifische Quantisierungsfunktionen eingesetzt, die die rekonstruierten Features unter gegenseitigen Approximationseinschränkungen verarbeiten. Das Ergebnis sind einheitliche binäre Hash-Codes, die sowohl in der Quell- als auch in der Zieldomäne funktionieren. Dieser Ansatz verbindet die beiden Phasen nahtlos und verbessert die Konsistenz der semantischen Ausrichtung.

Umfangreiche Experimente zeigen, dass PSCA die Leistung von domänenübergreifenden Retrieval-Systemen signifikant steigert. Die Kombination aus Prototypen, geometrischer Zuverlässigkeitsbewertung und rekonstruierten Features führt zu hochwertigeren Hash-Codes und damit zu einer höheren Trefferquote bei der Bildsuche. Das Verfahren stellt einen wichtigen Fortschritt in der Domänenanpassung dar und eröffnet neue Möglichkeiten für Anwendungen, die auf robuste, domänenübergreifende Retrieval-Lösungen angewiesen sind.

Ähnliche Artikel