KI News: Kurz und klar.

Anmelden

Beyond I'm Sorry, I Can't: Dissecting Large Language Model Refusal

arXiv – cs.AI • 15.09.2025 05:00 • Original

#LLM #Ablehnung #Jailbreak #Spärlicher Autoencoder #Residual-Stream #Faktorielle Maschine #Auditierung

Anzeige

Ähnliche Artikel

arXiv – cs.AI • 11.11.2025 05:00

Kostenlose Mehragenten-Debatte verbessert Sicherheit von Sprachmodellen

arXiv – cs.AI • 05.11.2025 05:00

Reimagining Safety Alignment with An Image

arXiv – cs.AI • 05.11.2025 05:00

Align to Misalign: Automatic LLM Jailbreak with Meta-Optimized LLM Judges

MarkTechPost • 08.10.2025 18:03

Anthropic AI Releases Petri: An Open-Source Framework for Automated Auditing by Using AI Agents to Test the Behaviors of Target Models on Diverse Scenarios

arXiv – cs.AI • 11.11.2025 05:00

LLM-Inferezzug: Energieverbrauch von Sprachmodellen gemessen

arXiv – cs.AI • 11.11.2025 05:00

Neues Verfahren verbessert Zuverlässigkeit von LLMs bei komplexen Aufgaben