GLOSS: Neue Methode eliminiert toxische Subräume in Sprachmodellen
Large Language Models (LLMs) liefern beeindruckende Ergebnisse, doch ihre Fähigkeit, toxische Inhalte zu erzeugen, stellt ein ernsthaftes Sicherheitsrisiko dar. Klassische Ansätze wie die Ausrichtung der Ausgabepräferenzen können zwar die Toxizität reduzieren, lassen jedoch die zugrunde liegenden toxischen Parameterbereiche unberührt, was die Modelle anfällig für Angriffe macht.