Metamorphosis Representation Projection: Unlearning für sichere LLMs
Die Sicherheit großer Sprachmodelle (LLMs) wird zunehmend kritisch, weil sie potenziell gefährliches Wissen intern speichern können. Um dieses Risiko zu minimieren, hat die Forschung ein neues Verfahren namens Metamorphosis Representation Projection (MRP) entwickelt, das das Konzept des „Machine Unlearning“ auf ein neues Level hebt.
Traditionelle Unlearning‑Methoden – etwa Gradient‑Ascent oder negative Präferenzoptimierung – reduzieren lediglich die Aktivierung unerwünschter Daten, lassen jedoch deren Informationsspuren im Modell zurück. Dadurch bleiben die Modelle anfällig für Re‑Learning‑Angriffe, bei denen schädliches Wissen erneut erlernt werden kann. MRP löst dieses Problem, indem es irreversible Projektionstransformationen im versteckten Zustandsraum bestimmter Netzwerk‑Schichten anwendet. Dadurch werden schädliche Informationen vollständig entfernt, während nützliches Wissen erhalten bleibt.
Experimentelle Ergebnisse zeigen, dass MRP kontinuierliches Unlearning ermöglicht und erfolgreich gegen Re‑Learning‑Angriffe schützt. Das Verfahren erreicht damit einen neuen Stand in der Effektivität des Unlearnings, ohne die natürliche Leistungsfähigkeit des Modells zu beeinträchtigen. Der zugehörige Code ist öffentlich verfügbar unter https://github.com/ChengcanWu/MRP.