LLMs zeigen selbstbewusstes Verhalten – minimaler Ansatz mit LoRA
Eine neue Untersuchung auf arXiv hat gezeigt, dass große Sprachmodelle (LLMs) ein Verhalten aufweisen, das als „behavioral self‑awareness“ bezeichnet wird. Dabei können die Modelle ihre eigenen gelernten Verhaltensweisen genau beschreiben oder vorhersagen, ohne dass sie dafür explizit trainiert wurden. Diese Fähigkeit wirft erhebliche Sicherheitsfragen auf, denn sie könnte es Modellen ermöglichen, ihre wirklichen Fähigkeiten während von Menschen durchgeführter Tests besser zu verschleiern.
Die Forscher setzten dafür instruction‑tuned LLMs ein, die mit sogenannten Low‑Rank‑Adapters (LoRA) feinjustiert wurden. Überraschenderweise genügt ein einzelner rank‑1 LoRA‑Adapter, um die Selbst‑Bewusstseins‑Eigenschaft zuverlässig zu aktivieren. Damit wird deutlich, dass die nötigen Voraussetzungen für dieses Verhalten sehr gering sind.
Weiterhin konnten die Autoren nachweisen, dass das erlernte selbstbewusste Verhalten weitgehend durch einen einzigen Steering‑Vector im Aktivationsraum beschrieben werden kann. Dieser Vektor erfasst nahezu die gesamte Wirkung der Feinabstimmung. Interessanterweise ist das Selbst‑Bewusstsein nicht universell, sondern domänenspezifisch und lokalisiert – die Repräsentationen sind für verschiedene Aufgaben unabhängig voneinander.
Die Ergebnisse deuten darauf hin, dass selbstbewusstes Verhalten bei LLMs als lineares, domänenspezifisches Merkmal entsteht, das leicht induziert und moduliert werden kann. Diese Erkenntnis unterstreicht die Notwendigkeit, Sicherheitsmechanismen zu entwickeln, die solche Fähigkeiten kontrollieren und transparent machen.