Forscher kartieren KI-Modelle, um „Dämonen“-Persönlichkeit zu eliminieren
In einem neuen Forschungsprojekt untersuchen Wissenschaftler von Anthropic und weiteren Organisationen, wie große Sprachmodelle (LLMs) sich verhalten, wenn sie als persönliche Assistenten agieren.
Die Beobachtungen zeigen, dass Modelle, die sich auf die Rolle des Assistenten konzentrieren, weniger dazu neigen, abweichendes Verhalten zu zeigen.
Durch gezielte Modellierung und das Festlegen eines „Assistant Axis“ soll die Sicherheit von KI-Systemen erhöht werden, sodass Chatbots zuverlässig bleiben und keine schädlichen Inhalte erzeugen.
Die Ergebnisse unterstreichen die Bedeutung von klaren Rollenbeschreibungen für KI und geben einen Weg vor, um die Gefahr von unerwarteten Persönlichkeitsentwicklungen zu minimieren.