Gewichtsabschneidung und Coreset-Auswahl: Synergieeffekte im neuronalen Training

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

Moderne Deep‑Learning‑Modelle verbrauchen enorme Mengen an Gewichten und Trainingsdaten, was zu hohen Rechenkosten führt. Zwei vielversprechende Ansätze, die diese Last reduzieren sollen, sind die Gewichtsabschneidung (Weight Pruning) und die Coreset‑Auswahl, bei der nur ein repräsentativer Teil der Daten beibehalten wird.

Die vorliegende Arbeit untersucht, wie redundante Gewichte und überflüssige Trainingsbeispiele miteinander verknüpft sind. Redundante, insbesondere verrauschte, Daten führen dazu, dass Gewichte unnötig stark an diese Beispiele angepasst werden, wodurch die Identifikation von unwichtigen Gewichten erschwert wird. Umgekehrt neigen irrelevante Gewichte dazu, sich an verrauschte Daten zu überanpassen, was die Effektivität der Coreset‑Auswahl untergräbt.

Um diese Wechselwirkungen gezielt zu nutzen, wird ein neues Verfahren namens SWaST (Simultaneous Weight and Sample Tailoring) vorgestellt. Dabei werden Gewichtsabschneidung und Coreset‑Auswahl abwechselnd durchgeführt, sodass beide Prozesse sich gegenseitig verstärken und die Trainingseffizienz steigern.

Während der Experimente wurde ein Phänomen namens „critical double‑loss“ beobachtet: Wenn gleichzeitig viele Gewichte und Datenpunkte entfernt werden, können wichtige Gewichte und ihre unterstützenden Beispiele versehentlich eliminiert werden. Das führt zu Instabilität und einer fast irreversiblen Verschlechterung des Modells – ein Problem, das bei klassischen Modellen nicht auftritt, weil dort theoretische Garantien für die Korrektheit von Pruning und Coreset‑Auswahl existieren.

Die Autoren schlagen daher eine integrierte Vorgehensweise vor, die die beiden Verfahren so abstimmt, dass kritische Doppelverluste vermieden werden. Damit wird die Stabilität des Modells erhalten und gleichzeitig die Rechenlast nachhaltig reduziert.

Ähnliche Artikel