Neues Messverfahren für Werteabweichungen in Sprachmodellen
Die Sicherheit großer Sprachmodelle wird bislang meist anhand statischer Tests bewertet, obwohl die wichtigsten Fehler dynamisch auftreten – etwa Werteabweichungen bei veränderten Daten, Jailbreak-Angriffe oder langsame…