Neue Methode schätzt Adversarial‑Risiko von LLMs bei Best‑of‑N Sampling
Wissenschaftler haben eine neue Technik entwickelt, die das wahre Risiko von großen Sprachmodellen (LLMs) unter realen Angriffsbedingungen genauer einschätzt. Traditionelle Tests, die meist nur einen einzelnen Prompt oder ein kleines Budget an Angriffen nutzen, unterschätzen die Gefahr, weil Angreifer in der Praxis oft tausende parallele Versuche durchführen, bis ein schädlicher Output erzeugt wird.