Transformers: Quantitative Grenzen für Längen-Generalisation enthüllt
In einer neuen Studie auf arXiv (2510.27015v1) wird endlich klar, wie lang die Trainingssequenzen sein müssen, damit Transformer bei deutlich längeren, bislang unbekannten Eingaben ihre Leistung beibehalten. Die Arbeit baut auf früheren Erkenntnissen von Huang et al. (2025) auf, die gezeigt haben, dass Transformers irgendwann die Längen-Generalisation erreichen, wenn die Trainingslänge einen bestimmten Schwellenwert überschreitet. Hier wird dieser Schwellenwert nun quantifiziert.