Forschung
Routing statt Refusal: Warum die Bewertung von KI‑Alignment versagt
Eine neue Studie auf arXiv zeigt, warum die gängigen Tests zur Bewertung von KI‑Alignment häufig scheitern. Der Fokus liegt dabei auf der p…
arXiv – cs.LG