SWAP: Neue Wasserzeichen-Methode schützt Soft Prompts vor Urheberrechtsverletzungen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die Vision‑Language‑Modelle der Größenordnung von CLIP haben in den letzten Jahren enorme Fortschritte erzielt. Durch die Verwendung von Soft Prompts lassen sich diese Modelle gezielt auf spezifische Aufgaben anpassen, ohne die zugrunde liegende Architektur zu verändern. Gleichzeitig entsteht damit ein neues Problem: Wer besitzt die Rechte an diesen Soft Prompts und wie kann man sicherstellen, dass Dritte sie nicht unrechtmäßig übernehmen?

In der vorliegenden Arbeit wird untersucht, wie man die Urheberschaft von Soft Prompts auditieren kann. Traditionelle, nicht‑intrusive Auditing‑Ansätze führen häufig zu Fehlalarmen, weil unabhängige Modelle ähnliche Datenverteilungen teilen. Intrusive Methoden, wie Backdoor‑Techniken, stoßen dagegen an ihre Grenzen: Für CLIP lassen sich keine funktionalen Trigger einbetten, und die Übertragung klassischer DNN‑Backdoor‑Methoden auf Prompt‑Learning bringt unerwünschte Nebenwirkungen und Unklarheiten mit sich.

Die Autoren zeigen, dass das Problem auf einer fundamentalen Eigenschaft beruht: Wasserzeichen werden im selben Entscheidungsraum wie die Hauptaufgabe platziert, verfolgen jedoch gegensätzliche Ziele. Diese Überschneidung führt zu den beobachteten Misserfolgen.

Als Lösung schlagen die Forscher die Methode SWAP (Sequential Watermarking for Soft Prompts) vor. SWAP platziert Wasserzeichen in einem völlig anderen, komplexeren Raum, indem es eine festgelegte Reihenfolge von aus‑dem‑Verteilungs‑Klassen nutzt. Inspiriert von der Zero‑Shot‑Vorhersagefähigkeit von CLIP, ermöglicht diese sequentielle Einbettung ein robustes und nicht‑intrusives Copyright‑Audit, das die Integrität von Soft Prompts zuverlässig schützt.

Ähnliche Artikel