SynBullying: KI-generiertes Datenset revolutioniert Cyberbullying-Erkennung

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Ein brandneues Datenset namens SynBullying wurde auf arXiv veröffentlicht und verspricht, die Forschung zur Erkennung von Cyberbullying (CB) entscheidend voranzutreiben. Durch den Einsatz mehrerer großer Sprachmodelle (LLMs) werden realistische, mehrstufige Konversationen simuliert, die typische Mobbing‑Interaktionen abbilden.

Im Gegensatz zu herkömmlichen Datensätzen, die auf menschlich erstellten Beiträgen basieren, bietet SynBullying eine skalierbare und ethisch unbedenkliche Alternative. Die KI‑generierten Dialoge enthalten nicht nur einzelne Posts, sondern komplette Gesprächsverläufe, wodurch die Dynamik von Mobbing‑Situationen besser erfasst wird.

Das Datenset zeichnet sich durch drei zentrale Merkmale aus: Erstens die konversationelle Struktur, die mehrstufige Austausche statt isolierter Beiträge ermöglicht. Zweitens kontextbewusste Annotationen, bei denen die Gefährlichkeit innerhalb des Gesprächsflusses unter Berücksichtigung von Kontext, Intention und Diskursdynamik bewertet wird. Drittens eine feingranulare Etikettierung, die verschiedene CB‑Kategorien abdeckt und so eine detaillierte linguistische und verhaltensbezogene Analyse erlaubt.

SynBullying wurde anhand von fünf Dimensionen evaluiert: die Konversationsstruktur, lexikalische Muster, Sentiment/Toxizität, Rollen‑Dynamik, Schweregrad des Schadens und die Verteilung der CB‑Typen. Diese umfassende Analyse liefert wertvolle Einblicke in die Qualität und Relevanz der generierten Daten.

Darüber hinaus wurde die Nützlichkeit des Datensets praktisch getestet. SynBullying zeigte sich sowohl als eigenständiges Trainingsmaterial als auch als Ergänzung zu bestehenden Datensätzen, wodurch die Leistung von CB‑Klassifikatoren signifikant verbessert wurde.

Mit SynBullying eröffnet sich ein vielversprechender Weg, um die Erkennung von Cyberbullying zu optimieren, ohne dabei auf sensible menschliche Daten zurückgreifen zu müssen. Die Kombination aus Skalierbarkeit, ethischer Sicherheit und hoher Datenqualität macht das Datenset zu einem wichtigen Werkzeug für die zukünftige Forschung und Entwicklung von Schutzmaßnahmen gegen Online-Mobbing.

Ähnliche Artikel