Steuerte LLM‑Aktivierungen sind nicht surjektiv – Prompting reicht nicht
In einer neuen Studie von arXiv:2604.09839v1 wird gezeigt, dass die weit verbreitete Technik des „Activation Steering“ – bei der interne Aktivierungen eines Sprachmodells gezielt verändert werden, um das Ausgabe‑Verhalt…