The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
KI-gestützte Annotation-Pipelines stabilisieren große Sprachmodelle
arXiv – cs.LG
•
Laminar Flow Hypothese: Semantische Turbulenz erkennt Jailbreaks in LLMs
arXiv – cs.AI
•
Große Sprachmodelle lernen Belohnungs-Hacking: Risiko von Missalignment
arXiv – cs.LG
•
Debiasing Reward Models by Representation Learning with Guarantees
arXiv – cs.LG
•
Erklärbares RLHF: Trainingdaten finden, Fehler korrigieren
arXiv – cs.AI
•
LoopBench: LLM‑Schwärme entwickeln neue Strategien zur Symmetriebrechung