Surgery: Mitigation von schädlichem Fine‑Tuning bei LLMs durch Attention Sink
Schädliches Fine‑Tuning kann die Sicherheitsausrichtung großer Sprachmodelle zunichte machen und erhebliche Risiken bergen. In der neuen Studie wird ein Mechanismus namens Attention Sink eingesetzt, um diese Gefahren zu…