Black-Box-Strategie zerbricht Sicherheitsausrichtung bei medizinischen LLMs
Eine neue Studie aus dem arXiv-Repository zeigt, dass medizinische Large Language Models (LLMs) – trotz ihrer ausgeprägten Sicherheitsausrichtung – durch eine Black‑Box‑Distillation leicht kompromittiert werden können…