Backdoor-Angriffe auf LLMs bleiben trotz kontinuierlicher Feinabstimmung bestehen
In einer neuen Studie wird gezeigt, dass sich bösartige Hintertüren in großen Sprachmodellen (LLMs) auch nach mehrmaliger, benutzergetriebener Feinabstimmung nicht einfach verbergen lassen. Während frühere Untersuchunge…