MSRS: Multi-Subspace Steering verbessert Attributsteuerung in Sprachmodellen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die Steuerung von Large Language Models (LLMs) über interne Aktivierungen hat sich als vielversprechender Ansatz etabliert, doch bisherige Methoden leiden häufig unter Interferenzen mehrerer Attribute, die zu unerwünschten Kompromissen führen. Mit dem neuen Framework Multi-Subspace Representation Steering (MSRS) wird dieses Problem adressiert.

MSRS nutzt orthogonale Unterräume, die jedem Attribut einen eigenen, voneinander unabhängigen Einflussbereich im Repräsentationsraum zuweisen. Durch die Kombination von attributionsspezifischen Unterräumen mit einem gemeinsamen Unterraum für gemeinsame Steuerungsrichtungen entsteht ein hybrides Kompositionsmodell. Eine dynamische Gewichtungsfunktion lernt, diese Komponenten präzise zu integrieren, sodass die Steuerung gleichzeitig mehrdimensional und konfliktfrei bleibt.

Während der Inferenz setzt MSRS einen token‑basierten Mechanismus ein, der die semantisch relevantesten Tokens erkennt und gezielt beeinflusst. Dadurch wird eine feinkörnige Modulation des Modellverhaltens ermöglicht, die sich besonders bei komplexen Aufgabenstellungen als effektiv erwiesen hat.

Experimentelle Ergebnisse zeigen, dass MSRS die Attribute-Konflikte deutlich reduziert, die Leistung gegenüber bestehenden Verfahren über eine Vielzahl von Attributen verbessert und sich robust auf unterschiedliche Downstream‑Aufgaben überträgt. Damit stellt MSRS einen bedeutenden Fortschritt in der kontrollierten Nutzung von LLMs dar.

Ähnliche Artikel