WaterMod: Probabilitätsbalanciertes Token-Partitioning für LLM‑Watermarking
Moderne Sprachmodelle schreiben Nachrichten, Rechtsgutachten und Code mit einer menschlichen Fließfähigkeit. Gleichzeitig verlangt die EU‑KI‑Verordnung, dass jeder synthetische Text ein unsichtbares, maschinenlesbares Wasserzeichen trägt. Traditionelle Logit‑basierte Wasserzeichen wählen bei jedem Decodierungsschritt zufällig ein „grünes“ Vokabular aus und erhöhen dessen Logits. Diese zufällige Aufteilung kann jedoch den höchstwahrscheinlichen Token ausschließen und die Textqualität mindern.