YaPO: Sparsere Aktivierungsvektoren für präzise Domänenanpassung von LLMs
In der Welt der großen Sprachmodelle (LLMs) gewinnt die Steuerung durch gezielte Aktivierungsinterventionen immer mehr an Bedeutung – sie bietet eine leichte Alternative zum klassischen Fine‑Tuning für Alignment und Personalisierung. Bisher wurden jedoch dichte Steuerungsvektoren verwendet, die oft mehrere latente Faktoren vermischen und dadurch die Kontrolle über spezifische Verhaltensweisen, etwa bei kultureller Anpassung, erschweren.
Das neue Verfahren YaPO (Yet another Policy Optimization) löst dieses Problem, indem es spärliche Steuerungsvektoren direkt im latenten Raum eines Sparse Autoencoders (SAE) lernt. Durch die Optimierung sparsamer Codes entstehen entangled‑freie, interpretierbare und effiziente Richtungen, die das Modell präziser steuern.
Experimentelle Ergebnisse zeigen, dass YaPO schneller konvergiert, bessere Leistungen erzielt und eine höhere Trainingsstabilität bietet als dichte Baselines. Die Methode funktioniert nicht nur bei kultureller Anpassung, sondern auch bei der Reduktion von Halluzinationen, dem Vermeiden von „Wealth‑Seeking“, Jailbreak‑Versuchen und Macht‑Suche. Gleichzeitig bleibt das generelle Wissen erhalten – es gibt keine messbaren Einbußen bei MMLU‑Tests.
YaPO liefert damit einen generellen, effizienten und stabilen Ansatz für feingranulare Alignment‑Aufgaben in Sprachmodellen.