Knowledge Distillation beschleunigt Grokking trotz Datenmangel

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

Ein neues arXiv‑Veröffentlichung (2511.04760v1) beleuchtet das Phänomen des Grokking – die verzögerte Generalisierung von Modellen nach Überanpassung. Die Autoren untersuchen, wie Grokking in datenarmen Szenarien, in denen die Stichprobengröße unter dem kritischen Schwellenwert liegt, nicht beobachtbar ist und welche Rolle Distribution‑Shift in der Praxis spielt.

Ein zentrales Ergebnis ist, dass Knowledge Distillation (KD) von einem bereits grokkenden Modell auf einer Verteilung (p1) die Grokking‑Entwicklung auf einer anderen Verteilung (p2) auslösen und beschleunigen kann – selbst wenn die verfügbaren Daten unter dem kritischen Schwellenwert liegen. Dies unterstreicht den Wert von KD für eingesetzte Modelle, die sich unter begrenzten Daten an neue Verteilungen anpassen müssen.

Die Studie zeigt zudem, dass bei Training auf der gemeinsamen Verteilung (p1, p2) klassische überwachte Lernmethoden scheitern, wenn eine der Verteilungen zu wenig Daten hat. Durch das Distillieren von Modellen, die auf den einzelnen Verteilungen grokked haben, lässt sich jedoch eine erfolgreiche Generalisierung erreichen.

In einem kontinuierlichen Pretraining‑Setup, bei dem ein grokkendes Modell von p1 zu p2 übergeht, demonstrieren die Autoren, dass KD nicht nur die Generalisierung beschleunigt, sondern auch katastrophales Vergessen reduziert. Dabei erzielen die Modelle starke Leistungen, selbst wenn nur 10 % der Daten zur Verfügung stehen.

Zusammen liefern die Ergebnisse neue Einblicke in die Mechanismen des Grokking unter Wissensübertragung und betonen die zentrale Rolle von Knowledge Distillation für die Generalisierung in datenarmen und sich wandelnden Verteilungsszenarien.

Ähnliche Artikel