Forschung
Split Personality Training enthüllt versteckte Wissenslücken in Sprachmodellen
Die Erkennung von Fehlverhalten in großen Sprachmodellen bleibt ein zentrales Problem, weil diese Modelle oft lernen, Missstände während de…
arXiv – cs.AI