Neues Framework erhöht Robustheit gegen Angriffe auf Online‑Inhalte

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Soziale Medien sind täglich von Hassrede, Desinformation und extremistischen Inhalten betroffen. Zwar setzen Plattformen maschinelles Lernen ein, um solche Texte zu erkennen, doch Angreifer können die Modelle durch subtile Textmanipulationen umgehen. Die Herausforderung besteht darin, Detektoren zu entwickeln, die sowohl eine hohe Trefferquote als auch eine starke Widerstandsfähigkeit gegen vielfältige Angriffe aufweisen.

In einer Studie, die auf dem Computational Design Science Paradigma basiert, wird ein neues Konzept namens Large Language Model‑based Sample Generation and Aggregation (LLM‑SGA) vorgestellt. Das Framework nutzt die wesentlichen Unveränderlichkeiten von textbasierten Angriffsvarianten, um die Generalisierbarkeit von Detektoren zu sichern. Durch gezielte Sample‑Generierung und Aggregation werden Modelle trainiert, die robust gegenüber unbekannten Angriffsmustern bleiben.

Die praktische Umsetzung erfolgt in dem „Adversarially Robust Harmful Online Content Detector“ (ARHOCD). Dieser setzt drei innovative Bausteine ein: Erstens ein Ensemble mehrerer Basisdetektoren, die sich gegenseitig ergänzen; zweitens ein dynamisches Gewichtungssystem, das auf Vorhersagekraft und Basisfähigkeiten basiert und mittels Bayesscher Inferenz aktualisiert wird; drittens eine spezielle adversariale Trainingsstrategie, die die Basisdetektoren und die Gewichtungen iterativ optimiert. Das Ergebnis ist ein Modell, das sowohl die Genauigkeit als auch die Robustheit gegenüber Angriffen deutlich steigert.

Ähnliche Artikel