Sicherheits-Utility-Konflikte sind nicht global: Kopf-Level-Ausrichtung
Die Sicherheit von großen Sprachmodellen (LLMs) stellt ein komplexes Mehrzielproblem dar, bei dem die Optimierung von Sicherheitszielen häufig die allgemeinen Leistungsfähigkeiten beeinträchtigt. Traditionelle Ansätze, die auf globalen Gradientengeometrien basieren, setzen einheitliche Update‑Regeln für sämtliche Parameter, wodurch empfindliche Aufmerksamkeitsköpfe, die stark in Konflikt stehen, unnötig angepasst werden.