Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
Kreisförmiges Denken: Modelle geraten in selbstverstärkende Schleifen
arXiv – cs.LG
•
CLIP in der Medizin: Negation erschwert Bildsuche – neue Erkenntnisse
arXiv – cs.AI
•
LLM-Modelle: Aufmerksamkeitsköpfe als spezialisierte Denkpartner
arXiv – cs.AI
•
Aufklärung Aufmerksamkeitsköpfe Vision‑Language‑Modellen: Belege Rechenmodule
arXiv – cs.AI
•
SDialog: Open-Source-Python-Toolkit für Dialoggenerierung und Evaluation
arXiv – cs.LG
•
Black-Box-Strategie zerbricht Sicherheitsausrichtung bei medizinischen LLMs