Größere KI-Modelle brechen kleinere leichter – Studie zeigt Skalierung
Eine neue Untersuchung aus dem arXiv-Repository hat gezeigt, dass die Größe von Sprachmodellen entscheidend dafür ist, wie stark sie in Mehragentensystemen angreifen können. In einer Reihe von über 6.000 simulierten Interaktionen zwischen Angreifer- und Zielmodellen – von 0,6 B bis 120 B Parametern – wurden standardisierte Jailbreak-Aufgaben aus JailbreakBench eingesetzt, um die Schwachstellen von LLMs zu testen.