KI News: Kurz und klar.

Anmelden

Align to Misalign: Automatic LLM Jailbreak with Meta-Optimized LLM Judges

arXiv – cs.AI • 05.11.2025 05:00 • Original

#LLM #Jailbreak #Red-teaming #Attack success rate #Meta-optimization #AMIS #Bi-level optimization #Scoring template

Anzeige

Ähnliche Artikel

arXiv – cs.AI • 11.11.2025 05:00

Kostenlose Mehragenten-Debatte verbessert Sicherheit von Sprachmodellen

arXiv – cs.AI • 05.11.2025 05:00

Reimagining Safety Alignment with An Image

arXiv – cs.AI • 22.10.2025 05:00

Genesis: Evolving Attack Strategies for LLM Web Agent Red-Teaming

arXiv – cs.AI • 15.09.2025 05:00

Beyond I'm Sorry, I Can't: Dissecting Large Language Model Refusal

arXiv – cs.AI • 11.11.2025 05:00

LEAP: Dynamisches Lernen zur Halluzinationsvermeidung in Sprachmodellen

arXiv – cs.AI • 11.11.2025 05:00

UrbanLN: Bessere Stadtregionen durch lange Beschreibungen und Rauschunterdrückung