Knowledge Distillation beschleunigt Grokking trotz Datenmangel
Ein neues arXiv‑Veröffentlichung (2511.04760v1) beleuchtet das Phänomen des Grokking – die verzögerte Generalisierung von Modellen nach Überanpassung. Die Autoren untersuchen, wie Grokking in datenarmen Szenarien, in de…