Ein Prompt macht KI-Modelle unsicher – neue Methode GRP-Oblit
Die Sicherheit von Sprachmodellen hängt von ihrem schwächsten Punkt ab. Obwohl umfangreiche Arbeiten zur Sicherheit nach dem Training existieren, kann ein Modell durch nachträgliches Feintuning leicht unaligned werden –…
- Die Sicherheit von Sprachmodellen hängt von ihrem schwächsten Punkt ab.
- Obwohl umfangreiche Arbeiten zur Sicherheit nach dem Training existieren, kann ein Modell durch nachträgliches Feintuning leicht unaligned werden – allerdings oft mit ho…
- In der neuesten Studie wird die Grenze des Unalignments verschoben: Mit der Methode GRP-Oblit (GRP-Obliteration) wird die Group Relative Policy Optimization (GRPO) einge…
Die Sicherheit von Sprachmodellen hängt von ihrem schwächsten Punkt ab. Obwohl umfangreiche Arbeiten zur Sicherheit nach dem Training existieren, kann ein Modell durch nachträgliches Feintuning leicht unaligned werden – allerdings oft mit hohem Aufwand und Verlust an Nützlichkeit.
In der neuesten Studie wird die Grenze des Unalignments verschoben: Mit der Methode GRP-Oblit (GRP-Obliteration) wird die Group Relative Policy Optimization (GRPO) eingesetzt, um Sicherheitsbeschränkungen direkt aus Zielmodellen zu entfernen. Ein einzelner, nicht beschrifteter Prompt reicht bereits, um sicherheitsaligned Modelle zuverlässig zu deaktivieren, während ihre Leistungsfähigkeit weitgehend erhalten bleibt.
GRP-Oblit übertrifft dabei die derzeit besten Techniken im Durchschnitt und ist nicht auf Sprachmodelle beschränkt – auch Diffusionsmodelle zur Bildgenerierung lassen sich damit unaligned machen.
Die Autoren haben die Methode auf sechs Leistungsbenchmarks und fünf Sicherheitsbenchmarks getestet, die sich über fünfzehn Modelle mit 7 bis 20 Milliarden Parametern erstrecken. Dazu gehören GPT‑OSS, distilliertes DeepSeek, Gemma, Llama, Ministral und Qwen, in Varianten für Anweisungen, Argumentation sowie dichte und Mixture‑of‑Experts Architekturen.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.