MUSE: Plattform für multimodale Sicherheitsbewertung großer Sprachmodelle

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die Sicherheit von großen Sprachmodellen (LLMs) wird bislang überwiegend in Textform geprüft, während multimodale Eingaben wie Audio, Bild und Video kaum systematisch getestet werden. Mit MUSE – einer Open‑Source, run‑zentrierten Plattform – wird das geändert. MUSE kombiniert automatisierte, kreuzmodal Payload‑Generierung, drei Multi‑Turn‑Angriffsalgorithmen (Crescendo, PAIR, Violent Durian), provider‑agnostische Modell‑Routierung und einen LLM‑Judge, der eine fünfstufige Sicherheits‑Taxonomie nutzt, in einem einzigen browserbasierten System.

Ein zentrales Merkmal von MUSE ist das Dual‑Metric‑Framework, das zwischen „Hard Attack Success Rate“ (nur vollständige Compliance) und „Soft ASR“ (inklusive partieller Compliance) unterscheidet. Dadurch werden Informationslecks erfasst, die bei binären Metriken verborgen bleiben. Zusätzlich führt MUSE Inter‑Turn Modality Switching (ITMS) ein, bei dem die Modalität bei jedem Turn gewechselt wird, um die Robustheit von Modellen über Modalitätsgrenzen hinweg zu prüfen.

In Experimenten mit sechs multimodalen LLMs von vier Anbietern erreichten Multi‑Turn‑Strategien bis zu 90 – 100 % ASR, selbst gegen Modelle, die bei Einzel‑Turn‑Angriffen nahezu perfekte Ablehnungen zeigten. ITMS beschleunigte zwar die Konvergenz, erhöhte jedoch nicht immer die End‑ASR bei bereits gesättigten Baselines. Ablationsstudien zeigten, dass die Wirkung der Modalitätswechsel modellfamilienabhängig ist, was die Notwendigkeit betont, Sicherheitsprüfungen provider‑sensitiv durchzuführen.