Transformer mit kontinuierlicher Tiefe: Steuerbare Sprachgenerierung neu definiert
Eine neue Hybrid-Transformer-Architektur ersetzt die üblichen diskreten Zwischenschichten durch ein kontinuierliches Neural Ordinary Differential Equation (ODE)-Block. Dadurch kann die Tiefe des Modells während der Inferenz als kontinuierliche Variable behandelt werden, die von einem lernbaren Vektorfeld \(F_\theta(H, \tau, u)\) gesteuert wird. Das Kontrollsignal \(u\) ist ein kompakter, niedrigdimensionaler Vektor, der explizit durch Konkatenation in das Modell eingespeist wird.
Die Autoren demonstrieren die Leistungsfähigkeit ihrer Methode in vier Experimenten. Erstens bleibt der Gradientfluss stabil – es treten keine Explosions- oder Vanishing-Gradienten auf. Zweitens ermöglicht die semantische Steuerung eine Sentiment-Kontrolle mit 98 % Genauigkeit für positive und 88 % für negative Aussagen. Drittens zeigt die kontinuierliche Interpolation eine nahezu identische Trajektorie zwischen festen und adaptiven Solver‑Ansätzen, mit einer Divergenz von lediglich 0,068 %. Viertens erreichen die Laufzeiten die gleiche Effizienz wie bei klassischen, diskreten Baselines.
Ein besonderes Highlight ist die Einsicht, die adaptive ODE‑Solver liefern: Das Kontrollsignal teilt das Vektorfeld in unterschiedliche dynamische Regime mit variierender Krümmung auf. Diese geometrische Struktur wird durch das lernbare Feld sichtbar und ermöglicht feinere Steuerungsebenen.
Dank des adjoint‑Methoden-Ansatzes kann das Training mit konstanter Speicherkomplexität \(O(1)\) durchgeführt werden, unabhängig von der Integrationstiefe. Insgesamt zeigen die Ergebnisse, dass kontinuierliche Tiefendynamiken kombiniert mit lernbaren Steuerungssignalen eine effiziente und kontrollierbare Sprachgenerierung ermöglichen.