Das Condensate-Theorem: Transformer-Modelle laufen linear, nicht quadratisch
In einer neuen Veröffentlichung auf arXiv (2602.06317v1) wird das Condensate-Theorem vorgestellt, das zeigt, dass die Sparsität der Aufmerksamkeit ein lernbares topologisches Merkmal ist – keine architektonische Einschränkung. Durch umfangreiche Analysen trainierter Sprachmodelle wurde entdeckt, dass die Aufmerksamkeitsmasse auf ein spezielles topologisches Manifold konzentriert ist, das dynamisch identifiziert werden kann, ohne jede Position einzeln zu prüfen.