MSRS: Multi-Subspace Steering verbessert Attributsteuerung in Sprachmodellen
Die Steuerung von Large Language Models (LLMs) über interne Aktivierungen hat sich als vielversprechender Ansatz etabliert, doch bisherige Methoden leiden häufig unter Interferenzen mehrerer Attribute, die zu unerwünsch…