Gradient‑Rekonstruktion aus Labels – effizienter Angriff auf Black‑Box‑Modelle

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der Welt der KI‑Sicherheit ist das Hard‑Label‑Black‑Box‑Setting besonders herausfordernd: Man kann nur die vom Modell vorhergesagte Klasse sehen, keine Wahrscheinlichkeiten oder Gradienten. Doch ein neues Forschungsprojekt zeigt, dass aus diesen scheinbar begrenzten Rückmeldungen tatsächlich Gradientensignale extrahiert werden können.

Die Autoren haben eine einheitliche Theorie entwickelt, die erklärt, warum viele bekannte sign‑Flipping‑Angriffe – bei denen die Vorhersage gezielt geändert wird – im Kern die Richtung des wahren Verlustgradienten approximieren. Damit wird der Angriff nicht mehr als bloße Heuristik, sondern als gezielte Rekonstruktion des Gradienten­signs verstanden.

Auf dieser Grundlage wurde ein neuer Angriff aufgebaut, der zunächst ohne Abfragen im Frequenzraum startet und anschließend ein Pattern‑Driven‑Optimization‑Verfahren (PDO) nutzt. Theoretische Analysen zeigen, dass die Initialisierung eine höhere Erwartungskosinus‑Ähnlichkeit zum wahren Gradienten­sign als zufällige Baselines liefert, während PDO die Abfragekomplexität deutlich reduziert.

Die Wirksamkeit wurde an umfangreichen Tests auf CIFAR‑10, ImageNet und ObjectNet nachgewiesen – sowohl bei Standard‑ als auch bei adversarial‑trainierten Modellen, bei kommerziellen APIs und bei CLIP‑basierten Systemen. In allen Szenarien übertraf der neue Ansatz die bisherigen Hard‑Label‑Angriffe in Trefferquote und Abfrageeffizienz, besonders im niedrigen Abfrage‑Regime.

Diese Arbeit liefert damit einen wichtigen Schritt in Richtung besserer Sicherheitsanalysen von KI‑Modellen und zeigt, dass selbst mit minimalem Feedback robuste Gradientenschätzungen möglich sind.

Ähnliche Artikel