Minimalgewichtige Störungen in Deep Networks: Low‑Rank Backdoor-Theorie
Eine neue Studie liefert die erste exakte Formel für die minimalen Gewichtsstörungen in tiefen neuronalen Netzen, die einen gewünschten Ausgabewertwechsel bewirken. Die Autoren zeigen, dass die Größe dieser Störungen von klar definierten Faktoren abhängt und vergleichen die Ein‑Schicht‑Formel mit generellen Lipschitz‑basierten Robustheitsgarantien. Beide Ansätze liegen im selben Größenordnungsbereich, was auf eine vergleichbare Wirksamkeit hinweist.
Die Theorie wird unmittelbar auf Backdoor‑Angriffe angewendet, bei denen die Genauigkeit eines Modells durch gezielte Gewichtsanpassungen manipuliert wird. Die Forscher bestimmen nachweislich Kompressionsthröcke, unterhalb derer solche Angriffe scheitern. Gleichzeitig demonstrieren sie, dass eine Low‑Rank‑Kompression die latenten Backdoors zuverlässig aktivieren kann, ohne die volle Präzision des Modells zu beeinträchtigen.
Die gewonnenen Ausdrücke verdeutlichen, wie die zurückpropagierten Margen die sensitivität einzelner Schichten steuern, und liefern zertifizierbare Garantien für die kleinste notwendige Parameteränderung, die einen gewünschten Output‑Shift erzeugt. Diese Erkenntnisse eröffnen neue Wege, sowohl die Sicherheit von Deep‑Learning‑Systemen zu prüfen als auch gezielte Manipulationen präzise zu steuern.