Das Condensate-Theorem: Transformer-Modelle laufen linear, nicht quadratisch

In einer neuen Veröffentlichung auf arXiv (2602.06317v1) wird das Condensate-Theorem vorgestellt, das zeigt, dass die Sparsität der Aufmerksamkeit ein lernbares topologisches Merkmal ist – keine architektonische Einschränkung. Durch umfangreiche Analysen trainierter Sprachmodelle wurde entdeckt, dass die Aufmerksamkeitsmasse auf ein spezielles topologisches Manifold konzentriert ist, das dynamisch identifiziert werden kann, ohne jede Position einzeln zu prüfen.

Das Team beweist, dass die Projektion der Aufmerksamkeit auf das Condensate Manifold – bestehend aus Anchor, Window und Dynamic Top‑k – für jede Anfrage exakt die gleiche Ausgabe liefert wie die klassische O(n²)-Aufmerksamkeit. Dabei handelt es sich nicht um eine Approximation, sondern um eine verlustfreie Parität.

Die Theorie wurde an einer Vielzahl von Modellen validiert, darunter GPT‑2, Pythia, Qwen2, TinyLlama und Mistral. In Tests mit über 1.500 generierten Tokens wurde eine bit‑exakte Übereinstimmung der Token erreicht, was die Korrektheit des Ansatzes unterstreicht.

Durch die Zuordnung dieser Topologie zu Hardware wurde ein Topological Attention Kernel entwickelt, der bei 131.000 Tokens einen gemessenen Geschwindigkeitszuwachs von 159‑fach (3,94 ms vs. 628 ms) erzielt hat. Für 1 Million Tokens wird ein potenzieller Speed‑Up von über 1.200‑fach prognostiziert, was die Inferenzkosten im Vergleich zu Flash Attention um mehr als 99,9 % senkt.

Die Autoren schließen, dass das vermeintliche quadratische Engpass-Problem lediglich ein Artefakt von naiven Implementierungen ist und nicht die Intelligenz der Modelle selbst widerspiegelt. Das Condensate-Theorem eröffnet damit neue Wege für effiziente, skalierbare Transformer‑Architekturen.

Ähnliche Artikel

🍪 Cookie-Einstellungen