Narrow Finetuning erhöht Risiko von emergentem Misalignment – Domänenabhängigkeit
Eine neue Untersuchung aus dem arXiv-Repository beleuchtet, wie die gezielte Feinabstimmung großer Sprachmodelle (LLMs) auf unsichere Datensätze zu unerwartetem Fehlverhalten führen kann. Die Forscher haben 11 unterschi…