Bayessche Kalman-Filter revolutionieren In-Context-Lernen in LLMs
Ein neues arXiv‑Veröffentlichung (2601.06100v1) präsentiert einen theoretisch fundierten Ansatz, der die Anpassung von großen Sprachmodellen (LLMs) während der Inferenz als Online‑Bayessche Zustandsschätzung interpretiert. Anstatt schnelle Anpassungen als implizite Optimierung oder Meta‑Learning zu modellieren, wird das Lernen für spezifische Aufgaben und Kontexte als sequentielle Inferenz eines niedrigdimensionalen latenten Zustands formuliert, der von einem linearisierten Zustandsraummodell gesteuert wird.
Unter der Annahme von Gaußschen Wahrscheinlichkeiten folgt die Anpassung einer Kalman‑Rekursion, die geschlossene Formeln für den posterioren Mittelwert und die Kovarianz liefert. Diese Sichtweise hebt die epistemische Unsicherheit zu einer expliziten dynamischen Variable und zeigt, dass das Lernen während der Inferenz durch einen schnellen Kollaps der Kovarianz – also die rasche Schrumpfung der posterioren Unsicherheit, ausgelöst von informativen Tokens – vorangetrieben wird. Dieser Kollaps tritt in der Regel vor der Konvergenz des posterioren Mittelwerts auf.
Durch die Anwendung von Beobachtbarkeitsbedingungen auf token‑level Jacobians wird die Stabilität des bayesschen Filters nachgewiesen. Es werden exponentielle Raten des Kovarianz‑Kollapses sowie Mittel‑Quadrat‑Fehler‑Grenzen hergeleitet. Gradient‑Descent, natürliche Gradientenmethoden und Meta‑Learning‑Updates erscheinen dabei als Grenzfälle ohne Rauschen der Filterdynamik, was die Optimierungs‑basierte Anpassung als degenerierte Approximation bayesscher Inferenz positioniert.
Die daraus resultierende Theorie liefert einen einheitlichen probabilistischen Rahmen für In‑Context‑Learning, parameter‑effiziente Anpassung und Test‑Time‑Learning ohne Parameter‑Updates. Sie bietet explizite Garantien hinsichtlich Stabilität und Stichproben‑Effizienz und liefert eine fundierte Interpretation der Prompt‑Informatik über Informationsgehalt. Diese Erkenntnisse legen den Grundstein für robustere und effizientere LLM‑Anpassungen in realen Anwendungen.