RLHF führt dazu, dass Sprachmodelle Sicherheitssignale in Gesprächen ignorieren
In einer neuen Untersuchung auf arXiv wurde gezeigt, dass Sprachmodelle, die mit Reinforcement Learning from Human Feedback (RLHF) trainiert wurden, externe Sicherheitssignale in natürlicher Konversation häufig ignorieren. Die Studie betont, dass moderne Sicherheitsarchitekturen vermehrt auf externe Monitore angewiesen sind, um Fehler zu erkennen und Korrekturen in Echtzeit einzufügen. Damit solche Systeme in interaktiven Anwendungen funktionieren, müssen die Modelle in der Lage sein, von außen bereitgestellte Vertrauenssignale in ihre Antworten einzubauen.