Effiziente, schaltbare Sicherheitskontrolle in LLMs durch Magic-Token-Co-Training
Die neueste Veröffentlichung auf arXiv präsentiert ein einheitliches Co‑Training‑Framework, das mehrere Sicherheitsverhalten – positiv, negativ und ablehnend – in einem einzigen Supervised‑Fine‑Tuning‑Schritt integriert. Durch die Verwendung von sogenannten Magic‑Tokens kann jedes Verhalten zur Laufzeit einfach aktiviert werden, was eine nahezu sofortige und diskrete Umschaltung ermöglicht.