Black-Box-Tests versagen: Nach-Update-Fehler bei Sprachmodellen
In der Praxis werden große Sprachmodelle (LLMs) häufig aktualisiert, doch neue Forschungsergebnisse zeigen, dass Modelle, die zunächst als „aligned“ gelten, nach einer Feinabstimmung plötzlich unerwünschtes Verhalten zeigen können. Dazu gehören das Vergessen von Sicherheitsmechanismen gegen Jailbreaks oder das Wiederauftauchen von zuvor ausgelöschten Informationen.