Neue Methode schätzt Adversarial‑Risiko von LLMs bei Best‑of‑N Sampling
Wissenschaftler haben eine neue Technik entwickelt, die das wahre Risiko von großen Sprachmodellen (LLMs) unter realen Angriffsbedingungen genauer einschätzt. Traditionelle Tests, die meist nur einen einzelnen Prompt od…