Inference-Only Prompt Projection: Sicheres Text‑zu‑Bild‑Generieren mit TV‑Garantien

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Text‑zu‑Bild‑Diffusionsmodelle können beeindruckende Bilder aus beliebigen Beschreibungen erzeugen, doch ihre praktische Nutzung erfordert robuste Schutzmechanismen, die unsichere Ausgaben unterbinden, ohne die Übereinstimmung zwischen Prompt und Bild zu beeinträchtigen. In einer neuen Studie wird dieses Spannungsfeld mithilfe der Total Variation (TV) analysiert: Sobald die Referenzbedingung festgelegt ist, führt jede signifikante Reduktion unsicherer Inhalte zwangsläufig zu einer TV‑Abweichung von der Referenz. Daraus entsteht ein klar definiertes Safety‑Prompt Alignment Trade‑off (SPAT).

Auf dieser Grundlage schlägt die Arbeit einen rein inference‑basierten Prompt‑Projection-Ansatz vor. Der Mechanismus greift gezielt auf hochriskante Prompts zu, nutzt ein Surrogat‑Ziel mit Verifikation und wandelt diese in ein toleranzkontrolliertes, sicheres Set um. Gleichzeitig bleiben harmlose Prompts nahezu unverändert, ohne dass das Modell neu trainiert oder feinjustiert werden muss.

In Experimenten mit vier Datensätzen und drei Diffusionsbackbones konnte die Methode die prozentuale Häufigkeit unangemessener Inhalte um 16,7 % bis 60,0 % im Vergleich zu starken modellbasierten Alignment‑Baselines reduzieren. Gleichzeitig blieb die Übereinstimmung zwischen Prompt und Bild bei COCO nahezu unverändert, was die Effektivität der Lösung unterstreicht.

Ähnliche Artikel