Neues Framework vereint Attention und State‑Space‑Modelle – 3 Theoreme
In der Welt der Sequenzmodellierung haben sich seit den klassischen rekurrenten Netzen bis hin zu modernen Transformers und State‑Space‑Modellen (SSMs) zahlreiche Architekturen entwickelt. Trotz dieser Vielfalt fehlt bislang ein einheitliches theoretisches Verständnis dafür, wie Ausdruckskraft und Trainierbarkeit miteinander verknüpft sind. Das neue arXiv‑Veröffentlichung 2512.15115v1 liefert genau das: ein gemeinsames Framework, das eine breite Klasse von Sequenzabbildungen über einen Eingabe‑abhängigen Interaktionsoperator Wij(X) beschreibt.
Das Framework macht zwei wiederkehrende Bauweisen deutlich. Erstens das „Unified Factorized Framework“, das dem Attention‑Stil entspricht: hier variiert Wij(X) durch skalare Koeffizienten, die auf gemeinsame Wert‑Maps angewendet werden. Zweitens die „Structured Dynamics“, die auf latenten dynamischen Systemen basieren und somit die klassischen SSM‑Rekurrenzen nachbilden. Durch diese klare Trennung lassen sich sowohl Attention‑ als auch State‑Space‑Modelle in einem einheitlichen mathematischen Rahmen analysieren.
Aus diesem Ansatz folgen drei zentrale theoretische Resultate. Erstens der „Interaction Rank Gap“, der zeigt, dass Modelle des Unified Factorized Frameworks – etwa ein einzelner Attention‑Head – auf einen niedrigen Dimensionsraum beschränkt sind und bestimmte dynamische Strukturen nicht darstellen können. Zweitens der „Equivalence (Head‑Count) Theorem“, der beweist, dass ein lineares SSM mit einem k‑dimensionalen Lag‑Operator‑Raum exakt mit H = k Attention‑Heads reproduziert werden kann. Drittens das „Gradient Highway Result“, das nachweist, dass Attention‑Schichten gradients unabhängig von der Distanz zwischen Eingaben führen, während stabile lineare Dynamiken eine distanzabhängige Gradient‑Attenuation aufweisen.
Diese Erkenntnisse legen die Grundlagen für einen fundamentalen Kompromiss zwischen Ausdruckskraft, Trainierbarkeit und Gradientenverteilung in Sequenzmodellen. Sie geben Forschern und Praktikern ein präzises Werkzeug, um die optimale Anzahl von Attention‑Heads zu bestimmen und die Stabilität von Trainingsprozessen besser zu verstehen – ein bedeutender Schritt zur Entwicklung effizienterer und robusterer KI‑Modelle.