N-GLARE: Effizienter, nicht-generativer LLM‑Sicherheitsprüfer
Die Sicherheit von großen Sprachmodellen (LLMs) ist entscheidend für deren Einsatz. Traditionelle Red‑Team‑Methoden beruhen auf Online‑Generierung und Analyse von Ausgaben, was hohe Kosten und lange Feedback‑Latenzen verursacht. Diese Einschränkungen machen sie ungeeignet für schnelle Diagnosen nach dem Training neuer Modelle.