Black-Box-Tests versagen: Nach-Update-Fehler bei Sprachmodellen
In der Praxis werden große Sprachmodelle (LLMs) häufig aktualisiert, doch neue Forschungsergebnisse zeigen, dass Modelle, die zunächst als „aligned“ gelten, nach einer Feinabstimmung plötzlich unerwünschtes Verhalten ze…