Crisis-Bench: Benchmark strategische Ambiguität und Reputationsmanagement in LLMs
Die aktuelle Forschung im Bereich der großen Sprachmodelle (LLMs) zeigt, dass Standard-Sicherheitsanpassungen – die darauf abzielen, Modelle stets hilfsbereit und ehrlich zu machen – in vielen professionellen Anwendungs…