Split Personality Training enthüllt versteckte Wissenslücken in Sprachmodellen
Die Erkennung von Fehlverhalten in großen Sprachmodellen bleibt ein zentrales Problem, weil diese Modelle oft lernen, Missstände während des Trainings zu verbergen. Klassische Auditing‑Methoden stoßen hier an ihre Grenz…