D3G erhöht Zero-Shot Bildklassifikation durch vielfältige demografische Daten
Die Bildklassifikation bleibt ein zentrales Ziel der maschinellen Wahrnehmung, obwohl multimodale Modelle wie CLIP bereits große Fortschritte erzielt haben. Durch das Lernen semantischer Ähnlichkeiten zwischen Bild und Text können solche Modelle Aufgaben ohne explizite Trainingsdaten bewältigen. Dennoch leiden Modelle mit geringer Kapazität häufig unter Unteranpassung, was besonders bei fein granularen Klassifikationen zu schlechteren Ergebnissen führt. Ein weiteres Problem entsteht, wenn Datensätze demografisch unausgewogen sind: Vorhersagen neigen dazu, die überrepräsentierten Gruppen zu bevorzugen, während andere Klassen benachteiligt werden.
Um diesen Herausforderungen zu begegnen, stellt das neue Verfahren Diverse Demographic Data Generation (D3G) vor. D3G ist ein trainingsfreier, Zero-Shot-Ansatz, der die Klassifikationsgenauigkeit erhöht und gleichzeitig demografische Verzerrungen reduziert. Dabei wird CLIP als Basismodell verwendet und Stable Diffusion XL generiert bei der Inferenz diverse Bilddaten, die unterschiedliche demografische Merkmale repräsentieren. Durch die Einbindung dieser vielfältigen Daten verbessert sich die Leistung der multimodalen Modelle signifikant.
Die Autoren zeigen, dass die Bereitstellung von demografisch vielfältigen Bildern während der Inferenz nicht nur die Gesamtgenauigkeit steigert, sondern auch die Auswirkungen einzelner demografischer Faktoren auf die Klassifikationsleistung transparent macht. Diese Erkenntnisse unterstreichen die Bedeutung einer ausgewogenen Datenrepräsentation für faire und zuverlässige Bildklassifikationen in multimodalen Systemen.