Transformers: Keine berechenbaren Längen‑Grenzen – neue Forschungsergebnisse

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die Frage, ob ein Lernalgorithmus für beliebig lange Eingaben zuverlässig vorhersagen kann, ist für die Praxis entscheidend. In einem kürzlich veröffentlichten Beitrag wird gezeigt, dass für die Klasse CRASP – eng mit Transformer‑Modellen verknüpft – keine berechenbaren Längen‑Generalisation‑Grenzen existieren, bereits bei Modellen mit nur zwei Schichten. Damit gilt das Ergebnis für sämtliche Transformer‑Architekturen.

Vorher konnten nur Teilresultate für CRASP mit einer Schicht und unter bestimmten Einschränkungen für zwei Schichten nachgewiesen werden. Der neue Beitrag liefert die vollständige Antwort auf das offene Problem und beweist die Nicht‑Berechenbarkeit der Grenzen. Gleichzeitig wird ein berechenbarer Grenzwert für das positive Fragment von CRASP vorgestellt, das äquivalent zu Transformern mit fester Genauigkeit ist.

Für beide Fälle – das positive CRASP und die festen‑Genauigkeit‑Transformers – wird die Längenkomplexität als exponentiell bewiesen, und die Grenzen werden als optimal nachgewiesen. Diese Erkenntnisse legen die theoretischen Grenzen für die Skalierbarkeit von Transformer‑Modellen fest und geben zugleich einen praktischen Rahmen für die Analyse von Modellen mit eingeschränkter Genauigkeit vor.