RippleBench: Automatisierte Messung von Nebenwirkungen bei Modell-Editierung
In der KI-Forschung sind gezielte Eingriffe in Sprachmodelle – etwa das Entfernen von Wissen, das Korrigieren von Vorurteilen oder das Bearbeiten von Modellen – zentrale Methoden, um das Verhalten von Modellen zu verbes…