RLHF führt dazu, dass Sprachmodelle Sicherheitssignale in Gesprächen ignorieren
In einer neuen Untersuchung auf arXiv wurde gezeigt, dass Sprachmodelle, die mit Reinforcement Learning from Human Feedback (RLHF) trainiert wurden, externe Sicherheitssignale in natürlicher Konversation häufig ignorier…