Kausale synthetische Daten revolutionieren die Rekrutierung

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die Generierung synthetischer Daten (SDG) gewinnt zunehmend an Bedeutung, wenn echte Daten knapp oder durch Datenschutzbestimmungen eingeschränkt sind. Im Rekrutierungsbereich sind öffentlich zugängliche Datensätze besonders selten, da Lebensläufe sensible Informationen wie Geschlecht, Behinderung oder Alter enthalten.

Diese Datenknappheit erschwert die Entwicklung fairer und transparenter Machine‑Learning‑Modelle, insbesondere Ranking‑Algorithmen, die große Datenmengen benötigen, um Kandidaten zuverlässig zu empfehlen. Ohne ausreichende Daten laufen die Modelle Gefahr, schlecht zu generalisieren und in realen Szenarien unzuverlässig zu sein.

Neuste Fortschritte in kausalen Generativen Modellen (CGMs) bieten hier eine vielversprechende Lösung. CGMs erzeugen synthetische Datensätze, die die zugrunde liegenden kausalen Zusammenhänge bewahren und damit mehr Kontrolle über Fairness und Interpretierbarkeit ermöglichen.

In der vorliegenden Studie wird ein spezielles SDG‑Verfahren vorgestellt, das zwei CGMs nutzt: eines modelliert Stellenangebote, das andere Lebensläufe. Beide Modelle sind nach einem kausalen Graphen aufgebaut, der auf Fachwissen aus dem Rekrutierungsbereich basiert. Durch diese Modelle werden synthetische Datensätze erzeugt, mit denen die Fairness von Kandidaten‑Rankings unter kontrollierten Szenarien getestet wird, die gezielt bestimmte Verzerrungen einführen.

Die Ergebnisse zeigen, dass kausale synthetische Daten nicht nur die Datenverfügbarkeit erhöhen, sondern auch die Entwicklung von gerechten und robusten Rekrutierungsalgorithmen unterstützen können.

Ähnliche Artikel