Neue Methode CHaRS verbessert Steuerung von LLMs durch heterogene Konzepte
In der neuesten Veröffentlichung auf arXiv (2603.02237v1) wird eine innovative Technik vorgestellt, die die Steuerung großer Sprachmodelle (LLMs) deutlich präziser macht. Die Methode, genannt Concept Heterogeneity-aware Representation Steering (CHaRS), nutzt die Prinzipien des optimalen Transports, um die inneren Aktivierungen von LLMs gezielt zu beeinflussen.
Traditionelle Ansätze zur Representation Steering setzen auf einen einzigen globalen Richtungsvektor, der meist aus dem Unterschied der Mittelwerte zweier kontrastiver Datensätze berechnet wird. Diese Technik geht jedoch von einer homogenen Repräsentation des Zielkonzepts im gesamten Embedding‑Raum aus – ein Ansatz, der in der Praxis oft versagt, weil LLM‑Darstellungen stark variieren und kontextabhängig geclustert sind.
CHaRS geht diesen Einschränkungen entgegen, indem es die Quell- und Zielrepräsentationen als Gaußsche Mischmodelle modelliert und die Steuerung als diskretes optimales Transportproblem zwischen semantischen Clustern formuliert. Aus dem resultierenden Transportplan wird ein Eingabe‑abhängiger, glatter Steuerungsvektor abgeleitet, der die Verschiebungen der einzelnen Cluster gewichtet kombiniert. Dadurch wird die Steuerung nicht mehr durch einen einzigen, globalen Vektor bestimmt, sondern dynamisch an die jeweilige Eingabe angepasst.
Durch umfangreiche Experimente konnte gezeigt werden, dass CHaRS die Kontrolle über das Verhalten von LLMs deutlich verbessert, insbesondere in Szenarien, in denen die Konzepte heterogen verteilt sind. Diese Fortschritte eröffnen neue Möglichkeiten für die feine Abstimmung von Sprachmodellen in vielfältigen Anwendungen.