Forschung
**Deliberatives Alignment: Sicherheit bleibt unsicher – senkt gefährliche Antworten**
Die Sicherheit großer Sprachmodelle hat dank sogenannter „Refusal‑Training“-Methoden Fortschritte gemacht, doch diese Ansätze bleiben oft z…
arXiv – cs.LG