<p>LLMs zeigen versteckte Vorurteile bei Logikrätseln – neues PRIME-Framework enthüllt Bias</p> <p>Ein neues Evaluationssystem namens PRIME (Puzzle Reasoning for Implicit Biases in Model Evaluation) nutzt Logikrätsel, um subtile soziale Vorurteile in großen Sprachmodellen zu entdecken. Durch die automatische Erstellung und Überprüfung von Rätseln in unterschiedlichen Schwierigkeitsgraden kann PRIME gezielt stereotype, antistereotype und neutrale Varianten erzeugen, die auf einer gemeinsamen Struktur basiere

arXiv – cs.AI Original
Anzeige