SCM-basierte Intersectional Bias‑Minderung: Embeddings bewerten

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Statische Wort‑Embeddings übernehmen oft unbewusste soziale Vorurteile aus den Texten, die sie lernen. Ein neues Papier erweitert das Stereotype Content Model (SCM) über die klassische Ein‑Gruppen‑Bias‑Analyse hinaus und untersucht, wie man mit SCM auch intersectionale Vorurteile – also die gleichzeitige Betrachtung mehrerer sozialer Identitäten – mildern kann.

Die Autoren erzeugen zusammengesetzte Repräsentationen für Identitäts­paare, indem sie die Vektoren entweder addieren oder aneinander reihen. Anschließend wenden sie drei Debiasing‑Strategien an: Subtraction, Linear Projection und Partial Projection. Dabei werden die Verfahren auf drei weit verbreiteten Embedding‑Familien – Word2Vec, GloVe und ConceptNet Numberbatch – getestet.

Zur Bewertung prüfen sie zwei zentrale Aspekte: Erstens, ob die lokalen Nachbarschaften der Vektoren nach der Korrektur noch kohärent bleiben, und zweitens, ob die üblichen Analogies‑Aufgaben weiterhin zuverlässig funktionieren. Die Ergebnisse zeigen, dass SCM‑basierte Maßnahmen auch im intersectionalen Kontext gut funktionieren und das semantische Gefüge weitgehend erhalten bleibt. Der Hauptnachteil ist der klassische Kompromiss: Strenge geometrische Erhaltung führt zu weniger Veränderungen in Analogies, während aggressivere Projektionen die Analogies verbessern, aber die Nachbarschaftsstabilität beeinträchtigen.

Praktisch bedeutet das, dass Partial Projection die konservativste Variante ist und die Vektoren stabil hält, Linear Projection etwas mutiger agiert, und Subtraction als einfacher, aber konkurrenzfähiger Baseline dient. Die Wahl zwischen Summation und Konkatenation hängt von der jeweiligen Embedding‑Familie und dem angestrebten Anwendungsfall ab. Insgesamt liefert die Studie klare Hinweise, wie intersectionale Bias‑Minderung mit SCM in statischen Embeddings realisiert werden kann und welche Trade‑offs dabei zu berücksichtigen sind.

Ähnliche Artikel