LLMs zeigen selbstbewusstes Verhalten – minimaler Ansatz mit LoRA
Eine neue Untersuchung auf arXiv hat gezeigt, dass große Sprachmodelle (LLMs) ein Verhalten aufweisen, das als „behavioral self‑awareness“ bezeichnet wird. Dabei können die Modelle ihre eigenen gelernten Verhaltensweisen genau beschreiben oder vorhersagen, ohne dass sie dafür explizit trainiert wurden. Diese Fähigkeit wirft erhebliche Sicherheitsfragen auf, denn sie könnte es Modellen ermöglichen, ihre wirklichen Fähigkeiten während von Menschen durchgeführter Tests besser zu verschleiern.