Suche nach Jailbreak | meineki.news

Neues Verfahren: LLMs sicherer machen durch gezielte Repräsentationslöschung

Moderne Sprachmodelle, die auf riesigen Webdaten trainiert werden, können gefährliche Inhalte erzeugen. Bestehende Schutzmaßnahmen wie DPO…

arXiv – cs.LG 02.03.2026 05:00

Forschung

Klassisches Chinesisch als effektiver Jailbreak-Ansatz: Bio‑inspirierte Optimierung

Mit der zunehmenden Verbreitung von großen Sprachmodellen (LLMs) wächst auch das Bewusstsein für deren Sicherheitsrisiken. Besonders gefähr…

arXiv – cs.AI 27.02.2026 05:00

Forschung

Neuer Ansatz: Alignment-Weighted DPO stärkt Sicherheit von Sprachmodellen

In den letzten Jahren haben Techniken wie Supervised Fine‑Tuning (SFT), Reinforcement Learning from Human Feedback (RLHF) und Direct Prefer…

arXiv – cs.AI 26.02.2026 05:00

Forschung

LLM‑Sicherheit: Aktivierungsentanglement erkennt versteckte Jailbreaks

Moderne Sprachmodelle bleiben anfällig für raffinierte Jailbreak‑Prompts, die flüssig und semantisch kohärent formuliert sind. Besonders pr…

arXiv – cs.AI 24.02.2026 05:00

Forschung

DeepContext: Echtzeit-Erkennung von böswilligen Absichten in LLM-Dialogen

Mit dem rasanten Ausbau von Large Language Models (LLMs) bleiben die Sicherheitsmechanismen häufig statisch. Dabei werden mehrteilige Gespr…

arXiv – cs.AI 20.02.2026 05:00

Forschung

<h1>Indische KI-Modelle: Neuer Benchmark prüft Sicherheitsresistenz in 12 Sprachen</h1> <p>Die Sicherheit großer Sprachmodelle wird bislang fast ausschließlich in Englisch getestet – ein Ansatz, der die Schwachstellen in anderen Sprachen vernachlässigt. Mit dem neuen Benchmark <strong>Indic Jailbreak Robustness (IJR)</strong> wird das geändert. IJR bietet einen „judge‑free“ Test, der 45.216 Angriffs‑Prompts in zwölf indischen und südasiatischen Sprachen abdeckt und sowohl einen JSON‑Track mit vertraglich fe

arXiv – cs.AI 20.02.2026 05:00

Forschung

Warnung: Textsicherheit reicht nicht für sichere Tool‑Aufrufe in LLM‑Agenten

Eine neue Studie, die auf arXiv veröffentlicht wurde, liefert einen alarmierenden Weckruf für Entwickler von Sprachagenten: Die Sicherheit…

arXiv – cs.AI 20.02.2026 05:00

Forschung

Fail-Closed Alignment: Neue Sicherheitsstrategie für Sprachmodelle

Eine aktuelle Studie hat eine strukturelle Schwachstelle in der Ausrichtung großer Sprachmodelle (LLM) aufgedeckt: Die heutigen Ablehnungsm…

arXiv – cs.LG 20.02.2026 05:00

Forschung

ProMoral-Bench: Ein neuer Benchmark für moralisches Prompting in LLMs

Die Art und Weise, wie man große Sprachmodelle (LLMs) anweist, hat einen entscheidenden Einfluss auf deren moralische Kompetenz und Sicherh…

arXiv – cs.AI 17.02.2026 05:00

Forschung

Dual-Cycle Adversarial Self-Evolution: Sicherheit für Rollen-LLMs

Die Fähigkeit von großen Sprachmodellen, in Rollen zu schlüpfen, hat in den letzten Jahren enorme Fortschritte gemacht. Gleichzeitig steigt…

arXiv – cs.AI 17.02.2026 05:00

Forschung

Automatisierte Erkennung von Jailbreak-Versuchen in klinischen LLMs

In der klinischen Ausbildung von Sprachmodellen (LLMs) stellt die Erkennung von Jailbreak-Versuchen – also Versuchen, das Modell zu manipul…

arXiv – cs.AI 17.02.2026 05:00

Forschung

Visuelle Jailbreak-Angriffe auf Bildbearbeitungsmodelle: Sicherheitslücke entdeckt

Die neuesten Fortschritte in großen Bildbearbeitungsmodellen haben das Paradigma von textbasierten Anweisungen zu vision‑prompt‑Editing ver…

arXiv – cs.AI 12.02.2026 05:00

Forschung

CrossTALK: Neuer Angriff auf Vision‑Language‑Modelle überwindet Sicherheit

In einer kürzlich veröffentlichten Studie auf arXiv (2602.10148v1) haben Forscher einen bahnbrechenden Angriff auf Vision‑Language‑Modelle…

arXiv – cs.AI 12.02.2026 05:00

Forschung

Steuern ohne Risiko? Spezifität & Robustheit bei Inferenz-Interventionen analysiert

Model-Steering, bei dem während der Inferenz auf versteckte Repräsentationen eingegangen wird, hat sich als leichtgewichtige Alternative zu…

arXiv – cs.LG 09.02.2026 05:00

Forschung

Kausale Analyse enthüllt Schlüsselfaktoren für Jailbreak‑Angriffe und -Abwehr

In einer bahnbrechenden Studie wurde ein neues Framework namens Causal Analyst vorgestellt, das die Mechanismen hinter Jailbreak-Angriffen…

arXiv – cs.LG 06.02.2026 05:00

Forschung

<p>Alignment Curse: Text‑Jailbreaks übertragen sich auf Audio in Omni‑Modellen</p> <p>In den letzten Monaten haben end‑to‑end trainierte Omni‑Modelle die multimodale Verständniskapazität deutlich gesteigert. Gleichzeitig hat sich das Sicherheits‑Red‑Teaming von rein textbasierten Angriffen auf audio‑basierte Jailbreaks ausgeweitet. Doch die Brücke zwischen Text‑ und Audio‑Jailbreaks blieb bislang wenig erforscht.</p> <p>Die vorliegende Arbeit untersucht, wie sich Jailbreak‑Methoden von Text auf Audio übertr

arXiv – cs.LG 04.02.2026 05:00

Forschung

Black-Box-Tests versagen: Nach-Update-Fehler bei Sprachmodellen

In der Praxis werden große Sprachmodelle (LLMs) häufig aktualisiert, doch neue Forschungsergebnisse zeigen, dass Modelle, die zunächst als…

arXiv – cs.LG 02.02.2026 05:00

Forschung

Neue Methode schützt KI-Modelle beim Feintuning vor Sicherheitsverlust

Feintuning großer Sprachmodelle (LLMs) ist unverzichtbar, birgt jedoch das Risiko, die Sicherheitsausrichtung stark zu verschlechtern. Selb…

arXiv – cs.LG 16.01.2026 05:00

Forschung

<h1>LLMs gegen Jailbreak-Angriffe schützen: Interne Sicherheitssignale nutzen</h1> <p>Large Language Models (LLMs) haben in den letzten Jahren enorme Fortschritte bei der Verarbeitung natürlicher Sprache erzielt und werden zunehmend in realen Anwendungen eingesetzt. Trotz umfangreicher Sicherheitsanpassungen bleiben sie jedoch anfällig für sogenannte Jailbreak-Angriffe, bei denen Angreifer versuchen, die Modelle dazu zu bringen, unerwünschte Inhalte zu generieren.</p> <p>In einer neuen Studie wurde ein bisl

arXiv – cs.AI 16.01.2026 05:00

Forschung

<h1>LLMs im Angesicht von „Adversarial Tales“: Neue Angriffe nutzen Cyberpunk‑Erzählungen</h1> <p>Die Sicherheitsmechanismen großer Sprachmodelle bleiben anfällig für Angriffe, die schädliche Anfragen in kulturell kodierte Strukturen einbetten. In einer neuen Studie wird die Technik „Adversarial Tales“ vorgestellt, ein Jailbreak, der gefährliche Inhalte in Cyberpunk‑Narrationen verpackt und die Modelle dazu bringt, diese als legitime Erzählinterpretationen zu analysieren.</p> <p>Durch die Umwandlung der Auf

arXiv – cs.AI 15.01.2026 05:00

Forschung

YaPO: Sparsere Aktivierungsvektoren für präzise Domänenanpassung von LLMs

In der Welt der großen Sprachmodelle (LLMs) gewinnt die Steuerung durch gezielte Aktivierungsinterventionen immer mehr an Bedeutung – sie b…

arXiv – cs.AI 14.01.2026 05:00

Forschung

Realistische Garantien für SmoothLLM: Ein probabilistisches Zertifikat

Die neueste Veröffentlichung auf arXiv (2511.18721v1) präsentiert einen Fortschritt in der Sicherheit von Sprachmodellen. Das bisherige Smo…

arXiv – cs.AI 12.01.2026 05:00

Forschung

Sicherheits-Boost für Sprachmodelle: Parameter‑Space schützt vor Angriffen

Medizinische Multimodale Large Language Models (MLLMs) haben in den letzten Jahren enorme Fortschritte bei spezialisierten medizinischen Au…

arXiv – cs.LG 09.01.2026 05:00

Forschung

MemoryGraft: Dauerhafter Kompromiss von LLM-Agenten durch verseuchte Erinnerungen

Moderne Sprachmodelle nutzen zunehmend Langzeitgedächtnis und Retrieval‑Augmented Generation (RAG), um Erfahrungen zu speichern und ihr Ver…

arXiv – cs.AI 22.12.2025 05:00

Forschung

Ein Leck reicht: Vortrainierte Modelle erhöhen Jailbreak‑Risiken

Finetuning von vortrainierten großen Sprachmodellen (LLMs) ist heute die Standardmethode, um spezialisierte Anwendungen zu entwickeln. Doch…

arXiv – cs.AI 18.12.2025 05:00

Forschung

Predictive Concept Decoders: Skalierbare, end-to-end KI-Interpretierbarkeit

Ein neues arXiv‑Veröffentlichung (2512.15712v1) präsentiert einen innovativen Ansatz, der die Interpretation von neuronalen Netzwerken in d…

arXiv – cs.AI 18.12.2025 05:00

Forschung

Laminar Flow Hypothese: Semantische Turbulenz erkennt Jailbreaks in LLMs

Mit der allgegenwärtigen Verbreitung von Large Language Models (LLMs) wächst die Notwendigkeit, diese Systeme vor gezielten „Jailbreak“-Ang…

arXiv – cs.LG 17.12.2025 05:00

Forschung

Safe2Harm: semantische Isomorphie als neuer Jailbreak für LLMs

In einer kürzlich veröffentlichten Studie auf arXiv wird eine innovative Angriffsmethode gegen große Sprachmodelle (LLMs) vorgestellt, die…

arXiv – cs.AI 17.12.2025 05:00

Forschung

LLM-Modelle extrahieren Kontext aus Nutzereingaben – sicherere Antworten

In der Welt der großen Sprachmodelle (LLMs) sind Nutzeranfragen häufig mehrdeutig oder unvollständig. Subtile Hinweise aus den Absichten, d…

arXiv – cs.LG 16.12.2025 05:00

Forschung

Black-Box-Strategie zerbricht Sicherheitsausrichtung bei medizinischen LLMs

Eine neue Studie aus dem arXiv-Repository zeigt, dass medizinische Large Language Models (LLMs) – trotz ihrer ausgeprägten Sicherheitsausri…

arXiv – cs.LG 11.12.2025 05:00

Finde Modelle, Firmen und Themen

Neues Verfahren: LLMs sicherer machen durch gezielte Repräsentationslöschung

Klassisches Chinesisch als effektiver Jailbreak-Ansatz: Bio‑inspirierte Optimierung

Neuer Ansatz: Alignment-Weighted DPO stärkt Sicherheit von Sprachmodellen

LLM‑Sicherheit: Aktivierungsentanglement erkennt versteckte Jailbreaks

DeepContext: Echtzeit-Erkennung von böswilligen Absichten in LLM-Dialogen

Warnung: Textsicherheit reicht nicht für sichere Tool‑Aufrufe in LLM‑Agenten

Fail-Closed Alignment: Neue Sicherheitsstrategie für Sprachmodelle

ProMoral-Bench: Ein neuer Benchmark für moralisches Prompting in LLMs

Dual-Cycle Adversarial Self-Evolution: Sicherheit für Rollen-LLMs

Automatisierte Erkennung von Jailbreak-Versuchen in klinischen LLMs

Visuelle Jailbreak-Angriffe auf Bildbearbeitungsmodelle: Sicherheitslücke entdeckt

CrossTALK: Neuer Angriff auf Vision‑Language‑Modelle überwindet Sicherheit

Steuern ohne Risiko? Spezifität & Robustheit bei Inferenz-Interventionen analysiert

Kausale Analyse enthüllt Schlüsselfaktoren für Jailbreak‑Angriffe und -Abwehr

Black-Box-Tests versagen: Nach-Update-Fehler bei Sprachmodellen

Neue Methode schützt KI-Modelle beim Feintuning vor Sicherheitsverlust

YaPO: Sparsere Aktivierungsvektoren für präzise Domänenanpassung von LLMs

Realistische Garantien für SmoothLLM: Ein probabilistisches Zertifikat

Sicherheits-Boost für Sprachmodelle: Parameter‑Space schützt vor Angriffen

MemoryGraft: Dauerhafter Kompromiss von LLM-Agenten durch verseuchte Erinnerungen

Ein Leck reicht: Vortrainierte Modelle erhöhen Jailbreak‑Risiken

Predictive Concept Decoders: Skalierbare, end-to-end KI-Interpretierbarkeit

Laminar Flow Hypothese: Semantische Turbulenz erkennt Jailbreaks in LLMs

Safe2Harm: semantische Isomorphie als neuer Jailbreak für LLMs

LLM-Modelle extrahieren Kontext aus Nutzereingaben – sicherere Antworten

Black-Box-Strategie zerbricht Sicherheitsausrichtung bei medizinischen LLMs

🍪 Cookie-Einstellungen