Prompt-basierte Werteausrichtung: Neue Methode für Sprachmodelle
In einer Zeit, in der große Sprachmodelle immer häufiger in sensiblen Anwendungen eingesetzt werden, ist die Ausrichtung auf menschliche Werte entscheidend. Traditionelle Feinabstimmungen sind zwar wirksam, bleiben jedoch statisch und passen sich nicht automatisch an sich verändernde Präferenzen an.
Forscher haben deshalb ein praktisches, reproduzierbares Verfahren entwickelt, das unabhängig vom Modell prüft, ob ein Prompt das generierte Textverhalten gezielt in Richtung bestimmter menschlicher Werte lenken kann. Dabei wird ein Scoring-Ansatz verwendet, der die Präsenz und den Gewinn der gewünschten Werte in den Antworten quantifiziert.
Die Methode wurde an einer Variante des Wizard‑Vicuna-Modells getestet. Dabei wurden Schwartz’ Theorie der Grundwerte als Leitfaden genutzt und die Ergebnisse anhand eines strukturierten Dialogdatensatzes ausgewertet. Im Vergleich zwischen einem Standardprompt und einem explizit wertorientierten Prompt zeigte sich, dass die Werteausrichtung bereits ohne Modelländerung oder dynamische Promptoptimierung möglich ist.
Diese Arbeit liefert damit einen wichtigen Schritt hin zu sicheren, wertorientierten Sprachmodellen, die flexibel auf menschliche Bedürfnisse reagieren können.