VALOR: Zero-Shot Agentic Prompt‑Moderation für sichere Bildgenerierung
Generative Vision‑Language‑Modelle wie Stable Diffusion können atemberaubende Bilder erzeugen, bergen jedoch das Risiko, unsichere, anstößige oder kulturell unangemessene Inhalte zu produzieren, wenn sie mit böswilligen Eingaben angesteuert werden. Traditionelle Schutzmechanismen stoßen an ihre Grenzen, weil sie entweder die Bildqualität mindern oder hohe Kosten verursachen.
Um diesen Problemen entgegenzuwirken, präsentiert die Forschungsgruppe VALOR – Value‑Aligned LLM‑Overseen Rewriter. VALOR ist ein modularer, Zero‑Shot-Agenten-Ansatz, der die Sicherheit von Text‑zu‑Bild‑Generierung ohne Qualitätsverlust gewährleistet.
Das System kombiniert mehrere Schutzschichten: ein mehrstufiger NSFW‑Detektor prüft lexikalische und semantische Risiken, ein kultureller Werte‑Aligner erkennt Verstöße gegen soziale Normen, Gesetze und Darstellungsethik, und ein Intention‑Disambiguator erkennt subtile oder indirekte Gefahren. Sobald ein Risiko erkannt wird, wird der Prompt von einem großen Sprachmodell unter dynamischen, rollen‑spezifischen Anweisungen umgeschrieben, sodass die ursprüngliche Intention erhalten bleibt, aber die Ausgaben an die Werte angepasst werden.
Falls das generierte Bild trotz dieser Maßnahmen noch nicht sicher ist, kann VALOR optional eine stilistische Neugenerierung durchführen, die das Bild in einen sichereren visuellen Bereich führt, ohne die Kernsemantik zu verändern. In umfangreichen Tests mit adversarialen, mehrdeutigen und wertsensiblen Eingaben konnte VALOR die Anzahl unsicherer Ausgaben um bis zu 100 % reduzieren, während die Nützlichkeit und Kreativität der Prompts erhalten blieb.
Die Ergebnisse zeigen, dass VALOR eine skalierbare und effektive Lösung darstellt, um generative Modelle sicherer zu machen, ohne dabei die Leistungsfähigkeit zu beeinträchtigen.