Knowledge Distillation beschleunigt Grokking trotz Datenmangel
Ein neues arXiv‑Veröffentlichung (2511.04760v1) beleuchtet das Phänomen des Grokking – die verzögerte Generalisierung von Modellen nach Überanpassung. Die Autoren untersuchen, wie Grokking in datenarmen Szenarien, in denen die Stichprobengröße unter dem kritischen Schwellenwert liegt, nicht beobachtbar ist und welche Rolle Distribution‑Shift in der Praxis spielt.