Transformer als tropische Polynomschaltung: Neue geometrische Einsicht

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In einer kürzlich veröffentlichten Studie wird gezeigt, dass das Self‑Attention‑Mechanismus des Transformers im Hoch‑Vertrauens‑Modus – also wenn die inverse Temperatur β gegen unendlich strebt – im Rahmen der tropischen Semiring‑Algebra (Max‑Plus‑Algebra) arbeitet. Durch die Annäherung an diesen Grenzfall wird die Softmax‑Funktion zu einer tropischen Matrixmultiplikation.

Das Ergebnis bedeutet, dass der Vorwärtsdurchlauf des Transformers im Wesentlichen eine dynamische Programmier‑Rekursion ausführt, die dem Bellman‑Ford‑Algorithmus zur Pfadsuche entspricht. Dabei wird ein latentes Graphenmodell aus den Token‑Ähnlichkeiten aufgebaut, auf dem die Berechnungen stattfinden.

Diese theoretische Erkenntnis eröffnet einen neuen geometrischen Blickwinkel auf das „Chain‑of‑Thought“‑Verfahren. Es wird deutlich, dass die Kettenlogik aus einem inhärenten kürzesten‑ bzw. längsten‑Pfad‑Algorithmus entsteht, der innerhalb der Netzwerk‑Berechnungen ausgeführt wird.

Ähnliche Artikel