Initialisierung entscheidet: Ist In‑Context‑Lernen Gradient Descent?
In‑Context‑Learning (ICL) ist ein faszinierendes Phänomen bei großen Sprachmodellen, dessen Funktionsweise jedoch noch nicht vollständig geklärt ist. Frühere Untersuchungen haben Linear Self‑Attention (LSA) mit Gradient…