BalDRO: Robustes Framework für ausgewogenes LLM‑Unlearning

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In einer Zeit, in der große Sprachmodelle (LLMs) immer mehr Einfluss auf das Internet haben, wird das gezielte Entfernen von Informationen aus bereits trainierten Modellen – das sogenannte LLM‑Unlearning – zu einer zentralen Herausforderung der Web‑Governance.

Ein Hauptproblem ist die Ungleichverteilung der „Forget‑Set“-Samples: einzelne Datenpunkte sind viel schwieriger zu vergessen als andere, was zu asynchronem Vergessen führt – manche Fakten bleiben erhalten, während andere zu stark gelöscht werden.

Um diesem Problem entgegenzuwirken, stellt das neue Forschungsprojekt BalDRO ein innovatives und effizientes Framework vor, das LLM‑Unlearning aus einer distributionally robusten Perspektive angeht. BalDRO nutzt einen Min‑Sup‑Ansatz, bei dem ein innerer Schritt die schlechteste Datenverteilung identifiziert, die besonders schwer zu verlernen ist, und ein äußerer Schritt die Modellparameter unter dieser Distribution aktualisiert.

Das Konzept wird in zwei Varianten umgesetzt: BalDRO‑G, eine diskrete GroupDRO‑basierte Approximation, die sich auf hochverlustige Teilmengen konzentriert, und BalDRO‑DV, ein kontinuierliches Donsker‑Varadhan‑Dual‑Verfahren, das sanft adaptive Gewichtungen in Standard‑Trainingspipelines ermöglicht.

Experimentelle Ergebnisse auf den Benchmark‑Datensätzen TOFU und MUSE zeigen, dass BalDRO die Qualität des Vergessens deutlich verbessert und gleichzeitig die Leistungsfähigkeit des Modells erhält – ein klarer Fortschritt gegenüber bestehenden Methoden. Der zugehörige Code wird zur Reproduzierbarkeit veröffentlicht.

Ähnliche Artikel