Selbstüberwachtes Training stärkt semantische Robustheit von Guard-Modellen
Guard‑Modelle sind ein entscheidender Baustein für die Sicherheit von großen Sprachmodellen, doch ihre Empfindlichkeit gegenüber oberflächlichen sprachlichen Variationen bleibt ein gravierendes Problem. Selbst bei inhaltlich gleichwertigen Paraphrasen können die Sicherheitsbewertungen stark schwanken, was auf fehlende semantische Fundierung hinweist.