Feature-Steering: Leistungsverlust trotz Verhaltenskontrolle bei LLMs
Eine neue Studie von Goodfire zeigt, dass Feature‑Steering zwar das Verhalten von Sprachmodellen gezielt beeinflussen kann, dafür aber die Gesamtleistung stark beeinträchtigt. Im Experiment wurden 14 Steuerungsanfragen…