Selbstüberwachtes Training stärkt semantische Robustheit von Guard-Modellen
Guard‑Modelle sind ein entscheidender Baustein für die Sicherheit von großen Sprachmodellen, doch ihre Empfindlichkeit gegenüber oberflächlichen sprachlichen Variationen bleibt ein gravierendes Problem. Selbst bei inhal…