QuickMerge++: Schnellere Token‑Fusion mit autoregressivem Prior

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Mit QuickMerge++ wird die Token‑Verarbeitung in generativen Modellen deutlich effizienter. Das neue Verfahren kombiniert eine dynamische Auswahl von Tokens, die anhand ihrer Aufmerksamkeitsnormen bestimmt werden, mit einem entropy‑basierten Budget‑Estimator. So werden nur die wirklich relevanten Tokens für die nächste Vorhersage herangezogen.

Um die Kompatibilität mit autoregressiven Generationen zu gewährleisten, wird ein leichtgewichtiger Transformer‑Prior trainiert, der die zusammengefasste Token‑Sequenz verarbeitet. QuickMerge++ nutzt damit semantische Salienz, flexible Token‑Budgets und AR‑Alignment, um präzise Ergebnisse bei deutlich weniger Tokens zu erzielen.

In Tests über Sprach-, Bild‑ und Video‑Domänen zeigt QuickMerge++ konsistente Verbesserungen im Rechen‑zu‑Genauigkeit‑Verhältnis. Die Token‑Anzahl wird erheblich reduziert, während die Leistung gleich oder besser als bei lernbasierten Token‑Zerlegern und festen Patch‑Baselines bleibt.