Effiziente Backdoor-Entfernung durch Rekonstruktion latenter Trigger-Änderungen
Maschinelles Lernen steht vor einer ernsthaften Bedrohung: Backdoor-Angriffe lassen Modelle bei sauberem Input normal arbeiten, während sie auf manipulierten Daten gezielt falsche Entscheidungen treffen. Traditionelle Abwehrstrategien versuchen, die dafür verantwortlichen Neuronen anhand von Trigger‑Activated Changes (TAC) zu identifizieren, stoßen jedoch häufig an ihre Grenzen, weil die TAC‑Werte ungenau geschätzt werden.