Transformer mit kontinuierlicher Tiefe: Steuerbare Sprachgenerierung neu definiert
Eine neue Hybrid-Transformer-Architektur ersetzt die üblichen diskreten Zwischenschichten durch ein kontinuierliches Neural Ordinary Differential Equation (ODE)-Block. Dadurch kann die Tiefe des Modells während der Infe…