Forschung
Surgery: Mitigation von schädlichem Fine‑Tuning bei LLMs durch Attention Sink
Schädliches Fine‑Tuning kann die Sicherheitsausrichtung großer Sprachmodelle zunichte machen und erhebliche Risiken bergen. In der neuen St…
arXiv – cs.AI