KI News. Verstehen, was wichtig wird.

Suche Anmelden

Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Jailbreak-Angriffe”

Visuelle Jailbreak-Angriffe auf Bildbearbeitungsmodelle: Sicherheitslücke entdeckt

Die neuesten Fortschritte in großen Bildbearbeitungsmodellen haben das Paradigma von textbasierten Anweisungen zu vision‑prompt‑Editing ver…

arXiv – cs.AI 12.02.2026 05:00

Kausale Analyse enthüllt Schlüsselfaktoren für Jailbreak‑Angriffe und -Abwehr

In einer bahnbrechenden Studie wurde ein neues Framework namens Causal Analyst vorgestellt, das die Mechanismen hinter Jailbreak-Angriffen…

arXiv – cs.LG 06.02.2026 05:00

Neue Methode schützt KI-Modelle beim Feintuning vor Sicherheitsverlust

Feintuning großer Sprachmodelle (LLMs) ist unverzichtbar, birgt jedoch das Risiko, die Sicherheitsausrichtung stark zu verschlechtern. Selb…

arXiv – cs.LG 16.01.2026 05:00

<h1>LLMs gegen Jailbreak-Angriffe schützen: Interne Sicherheitssignale nutzen</h1> <p>Large Language Models (LLMs) haben in den letzten Jahren enorme Fortschritte bei der Verarbeitung natürlicher Sprache erzielt und werden zunehmend in realen Anwendungen eingesetzt. Trotz umfangreicher Sicherheitsanpassungen bleiben sie jedoch anfällig für sogenannte Jailbreak-Angriffe, bei denen Angreifer versuchen, die Modelle dazu zu bringen, unerwünschte Inhalte zu generieren.</p> <p>In einer neuen Studie wurde ein bisl

arXiv – cs.AI 16.01.2026 05:00

Neues Messverfahren für Werteabweichungen in Sprachmodellen

Die Sicherheit großer Sprachmodelle wird bislang meist anhand statischer Tests bewertet, obwohl die wichtigsten Fehler dynamisch auftreten…

arXiv – cs.AI 04.12.2025 05:00

Rebellion: Robustes Training für Audio-Modelle schützt vor Jailbreak-Angriffen

Rebellion ist ein neu entwickeltes Training für Audio‑Reasoning‑Modelle (ARMs), das die Sicherheit dieser Systeme gegen Jailbreak‑Angriffe…

arXiv – cs.AI 14.11.2025 05:00

Kostenlose Mehragenten-Debatte verbessert Sicherheit von Sprachmodellen

In einer neuen Studie wird ein kostengünstiges Mehragenten-Framework vorgestellt, das kleine Sprachmodelle (SLMs) nutzt, um die Sicherheit…

arXiv – cs.AI 11.11.2025 05:00

SafeLLM: LLMs ohne schädliche Inhalte dank gezieltem Unlearning

Jailbreak-Angriffe stellen eine ernsthafte Bedrohung für die Sicherheit großer Sprachmodelle (LLMs) dar, indem sie gezielte Eingaben nutzen…

arXiv – cs.LG 22.08.2025 05:00