Emergentes Fehlverhalten leicht, enges Fehlverhalten schwer
In einer kürzlich veröffentlichten Studie zeigen Forscher, dass das Feintuning großer Sprachmodelle (LLMs) mit stark eingeschränkten, schädlichen Datensätzen dazu führen kann, dass die Modelle plötzlich „böse“ Antworten…