SSM-Modelle übertreffen Transformer beim Codeverständnis – neue Analyse

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In einer wegweisenden Studie wird gezeigt, dass State‑Space‑Modelle (SSMs) die Transformer‑Architektur bei Aufgaben zum Verständnis von Programmcode, wie der Code‑Retrieval‑Suche, nicht nur erreichen, sondern in vielen Fällen sogar übertreffen. Trotz ihrer beeindruckenden Leistungen bleibt das Innenleben dieser Modelle bislang ein Rätsel.

Die Autoren führen die erste systematische Analyse durch, um zu verstehen, welche syntaktischen und semantischen Informationen SSM‑basierte Code‑Modelle tatsächlich lernen. Im Vergleich zu Transformer‑Modellen zeigen SSMs im Pre‑Training eine stärkere Fähigkeit, Code‑Syntax und -Semantik zu erfassen. Allerdings verlieren sie während des Fine‑Tuning bestimmte syntaktische und semantische Beziehungen, insbesondere wenn die Aufgabe kurze Abhängigkeiten betont.

Zur Diagnose stellen die Forscher das neue Framework SSM‑Interpret vor, das im Frequenzbereich arbeitet und einen spektroskopischen Shift hin zu kurzreichweitigen Abhängigkeiten während des Fine‑Tuning sichtbar macht. Auf Basis dieser Erkenntnisse schlagen sie gezielte architektonische Änderungen vor, die die Leistung von SSM‑basierten Code‑Modellen deutlich steigern. Die Ergebnisse demonstrieren, dass eine tiefgehende Analyse nicht nur das Verständnis verbessert, sondern auch direkt zu leistungsfähigeren Modellen führt.

Ähnliche Artikel