Hybrid‑Modelle kombinieren Transformer und State Space für bessere Retrieval‑Performance

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In einer neuen Untersuchung auf arXiv wird die Fähigkeit von Transformer‑Modellen, Informationen aus dem Kontext zu extrahieren, mit der Effizienz linearer State‑Space‑Modelle (SSMs) verglichen. Während Transformer große Genauigkeit bei in‑Context‑Retrieval‑Aufgaben zeigen, wachsen ihre Rechenkosten quadratisch mit der Sequenzlänge. SSMs hingegen verarbeiten Daten in linearer Zeit, aber ihre Retrieval‑Fähigkeiten sind begrenzt.

Die Autoren stellen zwei synthetische Aufgaben vor: Bei der n‑Gram‑Retrieval‑Aufgabe muss das Modell ein n‑Gram identifizieren und wiedergeben, das unmittelbar nach einer Abfrage im Eingabesequenz erscheint. Die Position‑Retrieval‑Aufgabe verlangt ein zweistufiges assoziatives Lookup: Zuerst wird das Element, das der Abfrage entspricht, gefunden, danach wird dessen Positionsindex ausgegeben.

Die Ergebnisse zeigen, dass hybride Architekturen – die Transformer und SSMs kombinieren – die SSMs deutlich übertreffen und in Bezug auf Daten­effizienz und extrapolative Leistung die Transformer gleichziehen oder sogar übertreffen. Bei der Position‑Retrieval‑Aufgabe bleiben die reinen Transformer jedoch überlegen. Somit bieten hybride Modelle ein attraktives Mittel, um die Stärken beider Paradigmen zu nutzen.

Eine Analyse der Lernrepräsentationen offenbart, dass SSM‑basierte Modelle lokalitätsbewusste Einbettungen entwickeln: Tokens, die benachbarte Positionen repräsentieren, liegen im Embedding‑Raum nahe beieinander. Diese emergente Struktur fehlt bei Transformer‑Modellen und erklärt, warum SSMs und hybride Modelle bei informationsdichten Kontexten stark sind, während sie bei Positions‑Lookup‑Aufgaben an ihre Grenzen stoßen.