RippleBench: Automatisierte Messung von Nebenwirkungen bei Modell-Editierung
In der KI-Forschung sind gezielte Eingriffe in Sprachmodelle – etwa das Entfernen von Wissen, das Korrigieren von Vorurteilen oder das Bearbeiten von Modellen – zentrale Methoden, um das Verhalten von Modellen zu verbessern und aktuell zu halten. Diese Eingriffe wirken sich jedoch häufig auf verwandte, unerwünschte Bereiche aus, ein Phänomen, das als „Ripple‑Effect“ bezeichnet wird.