Feature-Steering: Transparente Ausrichtung von Sprachmodellen mit Sparse Autoencoder
Die sichere und nutzbare Ausrichtung großer Sprachmodelle ist ein zentrales Ziel der KI-Forschung. Traditionell wird dafür Reinforcement Learning from Human Feedback (RLHF) eingesetzt, das jedoch zu weitverbreiteten, schwer nachvollziehbaren Parameteränderungen führt. Um dem entgegenzuwirken, präsentiert ein neues Verfahren namens Feature Steering with Reinforcement Learning (FSRL) einen klaren und nachvollziehbaren Ansatz.