Robuste Wasserzeichen für KI-Code: Neue Methode schützt vor Kommentarentfernung
Ein neues arXiv-Papier (2512.14753v1) präsentiert einen Durchbruch im Bereich der Wasserzeichen für von großen Sprachmodellen generierten Code. Die Autoren betonen, dass das Verhindern von Missbrauch – etwa durch Fake-News, Plagiate oder Spam – von entscheidender Bedeutung ist, wenn es um Code geht, der häufig urheberrechtlich geschützte Inhalte enthält.
Der Hauptkritikpunkt an bestehenden Techniken ist die Anfälligkeit gegenüber dem Entfernen von Kommentaren. Ein Angreifer kann Kommentare einfach löschen, ohne die Funktionsweise des Codes zu beeinträchtigen, und damit die Erkennbarkeit des Wasserzeichens stark reduzieren. Die neue Methode nutzt ein sogenanntes Cue‑List-Konzept, um zwischen Bereichen mit niedriger und hoher Entropie im Code zu unterscheiden. Durch gezielte Einbettung des Wasserzeichens in die hochentropischen Stellen wird die Erkennbarkeit deutlich erhöht.
Die Autoren haben ihre Technik auf dem HumanEval-Datensatz getestet und mit drei führenden Wasserzeichen‑Methoden verglichen. Die Ergebnisse zeigen, dass die neue Herangehensweise nicht nur robuster gegen Kommentarentfernung ist, sondern auch eine höhere Erkennungsrate und bessere Nutzbarkeit bietet. Dieser Fortschritt stellt einen wichtigen Schritt dar, um die Integrität und Nachverfolgbarkeit von KI-generiertem Code sicherzustellen.