Neues Verfahren schützt sensible Daten in großen Rechenmodellen
Die Forschung im Bereich der großen Rechenmodelle (LRMs) hat einen bedeutenden Fortschritt erzielt: Mit dem neuen Ansatz „Sensitive Trajectory Regulation“ (STaR) können sensible Informationen nun während des gesamten Denkprozesses wirksam entfernt werden. Im Gegensatz zu bisherigen Methoden, die sich nur auf die Endantwort konzentrieren, adressiert STaR die gesamte Kette von Überlegungen und verhindert damit dauerhafte Datenschutzverletzungen.
STaR arbeitet ohne zusätzliche Parameter und setzt ausschließlich auf Inferenzzeit-Mechanismen. Zunächst erkennt das System sensiblen Inhalt mithilfe einer semantisch bewussten Erkennung. Anschließend werden globale Sicherheitsbeschränkungen durch einen sicheren Prompt-Präfix eingefügt. Durch eine dynamische, trajektorienbasierte Unterdrückung werden sensible Inhalte in jedem Schritt der Argumentationskette blockiert, bevor sie generiert werden. Abschließend filtert ein tokenbasiertes, adaptives Verfahren sowohl exakte als auch paraphrasierte sensible Tokens aus.
Um die Wirksamkeit des Ansatzes zu messen, wurden zwei neue Metriken entwickelt. Der Multi-Decoding Consistency Assessment (MCS) bewertet die Konsistenz des Unlearnings über verschiedene Decodierungsstrategien hinweg, während der Multi-Granularity Membership Inference Attack (MIA) die Privatsphäre sowohl auf Antwort- als auch auf Prozessebene quantifiziert. Erste Tests auf dem R-TOFU-Benchmark zeigen, dass STaR die Privatsphäre signifikant verbessert, ohne die Leistungsfähigkeit der Modelle zu beeinträchtigen.