Forschung
Feature-Steering: Leistungsverlust trotz Verhaltenskontrolle bei LLMs
Eine neue Studie von Goodfire zeigt, dass Feature‑Steering zwar das Verhalten von Sprachmodellen gezielt beeinflussen kann, dafür aber die…
arXiv – cs.LG