Forschung
Selbstüberwachtes Training stärkt semantische Robustheit von Guard-Modellen
Guard‑Modelle sind ein entscheidender Baustein für die Sicherheit von großen Sprachmodellen, doch ihre Empfindlichkeit gegenüber oberflächl…
arXiv – cs.AI