RewriteNets: String‑Rewriting‑Architektur für effizientes Sequenz‑Modellieren
Traditionelle Sequenzmodelle wie der Transformer bauen ihre Struktur auf dichten Aufmerksamkeitsgewichten auf, was zu einer quadratischen Rechenkomplexität führt. Die neu vorgestellte RewriteNet‑Architektur verfolgt einen völlig anderen Ansatz: Sie nutzt explizite, parallele String‑Rewriting‑Regeln, um die Struktur direkt zu modellieren.
Jede RewriteNet‑Schicht besteht aus einer Menge lernbarer Regeln. Für jede Position in der Eingabesequenz werden vier Schritte ausgeführt: zunächst wird eine unscharfe Übereinstimmung der Regelmuster gesucht, anschließend werden Konflikte durch einen differenzierbaren Zuordnungsoperator gelöst, danach werden die ausgewählten Regeln angewendet, um Eingabeteile durch Ausgabetexte unterschiedlicher Länge zu ersetzen, und schließlich werden unveränderte Token weitergereicht.
Da die Regelzuweisung diskret ist, setzt RewriteNet einen straight‑through Gumbel‑Sinkhorn‑Estimator ein, der eine stabile, end‑to‑end‑trainierbare Lösung ermöglicht. Dadurch kann das Modell ohne zusätzliche Rechenaufwand die Regeln selbstständig optimieren.
In umfangreichen Tests – von algorithmischen bis zu string‑manipulativen Aufgaben – übertrifft RewriteNet sowohl LSTM‑ als auch Transformer‑Baselines. Besonders beeindruckend ist die 98,7 %‑Genauigkeit auf dem SCAN‑Benchmark im Längen‑Split, was die Fähigkeit zur systematischen Generalisierung unterstreicht. Gleichzeitig arbeitet RewriteNet deutlich effizienter als herkömmliche Transformer‑Modelle.
Eine detaillierte Analyse der erlernten Regeln sowie eine umfassende Ablationsstudie zeigen, dass die explizite strukturelle Bias‑Einbettung ein vielversprechender Weg für zukünftige Sequenzmodelle darstellt.