Forschung arXiv – cs.LG

MUSE: Plattform für multimodale Sicherheitsbewertung großer Sprachmodelle

Die Sicherheit von großen Sprachmodellen (LLMs) wird bislang überwiegend in Textform geprüft, während multimodale Eingaben wie Audio, Bild und Video kaum systematisch getestet werden. Mit MUSE – einer Open‑Source, run‑z…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Die Sicherheit von großen Sprachmodellen (LLMs) wird bislang überwiegend in Textform geprüft, während multimodale Eingaben wie Audio, Bild und Video kaum systematisch ge…
  • Mit MUSE – einer Open‑Source, run‑zentrierten Plattform – wird das geändert.
  • MUSE kombiniert automatisierte, kreuzmodal Payload‑Generierung, drei Multi‑Turn‑Angriffsalgorithmen (Crescendo, PAIR, Violent Durian), provider‑agnostische Modell‑Routie…

Die Sicherheit von großen Sprachmodellen (LLMs) wird bislang überwiegend in Textform geprüft, während multimodale Eingaben wie Audio, Bild und Video kaum systematisch getestet werden. Mit MUSE – einer Open‑Source, run‑zentrierten Plattform – wird das geändert. MUSE kombiniert automatisierte, kreuzmodal Payload‑Generierung, drei Multi‑Turn‑Angriffsalgorithmen (Crescendo, PAIR, Violent Durian), provider‑agnostische Modell‑Routierung und einen LLM‑Judge, der eine fünfstufige Sicherheits‑Taxonomie nutzt, in einem einzigen browserbasierten System.

Ein zentrales Merkmal von MUSE ist das Dual‑Metric‑Framework, das zwischen „Hard Attack Success Rate“ (nur vollständige Compliance) und „Soft ASR“ (inklusive partieller Compliance) unterscheidet. Dadurch werden Informationslecks erfasst, die bei binären Metriken verborgen bleiben. Zusätzlich führt MUSE Inter‑Turn Modality Switching (ITMS) ein, bei dem die Modalität bei jedem Turn gewechselt wird, um die Robustheit von Modellen über Modalitätsgrenzen hinweg zu prüfen.

In Experimenten mit sechs multimodalen LLMs von vier Anbietern erreichten Multi‑Turn‑Strategien bis zu 90 – 100 % ASR, selbst gegen Modelle, die bei Einzel‑Turn‑Angriffen nahezu perfekte Ablehnungen zeigten. ITMS beschleunigte zwar die Konvergenz, erhöhte jedoch nicht immer die End‑ASR bei bereits gesättigten Baselines. Ablationsstudien zeigten, dass die Wirkung der Modalitätswechsel modellfamilienabhängig ist, was die Notwendigkeit betont, Sicherheitsprüfungen provider‑sensitiv durchzuführen.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?
Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.