Forschung arXiv – cs.LG

RoPE erklärt das Slash-Muster in Attention: Warum es entsteht

14.01.2026 05:00 • ≈2 Min. Lesezeit • Originalquelle

#Große Sprachmodelle #Slash-Muster #Slash-Dominant Heads #RoPE #Query- und Key-Vektoren #Frequenzspektrum #Open-Source-LLMs

Kernaussagen

Das nimmst du aus dem Beitrag mit

Große Sprachmodelle zeigen häufig ein auffälliges „Slash‑Muster“ in ihren Aufmerksamkeitswerten: die Scores konzentrieren sich entlang einer Diagonale mit einem festen V…
Dieses Phänomen spielt eine entscheidende Rolle beim Informationsfluss zwischen Tokens, doch die Gründe für seine Entstehung waren lange Zeit ungeklärt.
In der aktuellen Studie wird das Slash‑Muster systematisch untersucht.

Große Sprachmodelle zeigen häufig ein auffälliges „Slash‑Muster“ in ihren Aufmerksamkeitswerten: die Scores konzentrieren sich entlang einer Diagonale mit einem festen Versatz. Dieses Phänomen spielt eine entscheidende Rolle beim Informationsfluss zwischen Tokens, doch die Gründe für seine Entstehung waren lange Zeit ungeklärt.

In der aktuellen Studie wird das Slash‑Muster systematisch untersucht. Durch die Analyse von Open‑Source‑LLMs konnte gezeigt werden, dass die sogenannten Slash‑Dominant Heads (SDHs) ein inhärentes Merkmal der Modelle sind und auch bei völlig neuen, nicht im Trainingsdatensatz vorkommenden Eingaben auftreten.

Die Autoren identifizierten zwei charakteristische Bedingungen, die SDHs begünstigen: Erstens sind die Query‑ und Key‑Vektoren nahezu Rang‑eins, und zweitens dominiert bei der Rotations‑Positions‑Einbettung (RoPE) ein mittleres bis hohes Frequenzspektrum. Unter diesen Umständen sind Query und Key über die Tokens hinweg nahezu identisch, und die Wechselwirkung zwischen den mittleren und hohen Frequenzkomponenten von RoPE erzeugt das Slash‑Muster.

Darüber hinaus liefern theoretische Analysen einen Beweis dafür, dass diese Bedingungen ausreichen, um SDHs zu erzeugen. Durch die Untersuchung der Trainingsdynamik eines flachen Transformers mit RoPE wird gezeigt, dass Modelle, die mittels Gradientenabstieg trainiert werden, zwangsläufig SDHs entwickeln. Diese Eigenschaft bleibt auch bei Eingaben, die außerhalb der Trainingsverteilung liegen, erhalten.

Die Ergebnisse liefern somit ein umfassendes Verständnis dafür, warum Slash‑Muster in Attention entstehen, und zeigen, dass sie ein robustes, generalisierendes Merkmal moderner Sprachmodelle sind.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?

Ist das eher Signal, Produkt oder nur kurzfristiger Hype?

Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Große Sprachmodelle

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Slash-Muster

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Slash-Dominant Heads

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

arXiv – cs.LG

Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.

Lernpfad

Wenn du nach dieser Meldung weiterlernen willst

Themen-Hub

Große Sprachmodelle systematisch verfolgen

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Archiv

Weitere Beispiele zu Große Sprachmodelle

Nutze das Archiv, um Muster, Wiederholungen und Trendlinien innerhalb des Themas zu sehen.

Im Themen-Cluster weiter

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Themen-Hub

Große Sprachmodelle

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

3 Signale in 7 Tagen • 222 Artikel im Hub

Hub oeffnen →

Nachbar-Hub

künstliche Intelligenz

Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.

19 gemeinsame Signale

Nachbar-Hub

Reinforcement Learning

Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.

16 gemeinsame Signale

Nachbar-Hub

Benchmark

Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.

10 gemeinsame Signale

Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen

arXiv – cs.AI

LLM-Agenten meistern moralische Entscheidungsrahmen – neue Studie

18.11.2025 05:00

arXiv – cs.AI

KI nutzt synthetische Kliniknotizen zur Verbesserung multimodaler Diagnosen

01.12.2025 05:00

VentureBeat – AI

Meta entwickelt DreamGym: KI-Agenten lernen in simulierten Welten, Kosten sinken

19.11.2025 00:00

arXiv – cs.AI

Narrow Finetuning erhöht Risiko von emergentem Misalignment – Domänenabhängigkeit

03.02.2026 05:00

arXiv – cs.AI

KI‑Hippocampus: Wie nah sind wir an menschlichem Gedächtnis?<br/>

15.01.2026 05:00

arXiv – cs.AI

MovieCORE: KI-gestützte Fragen zu Filmen – tieferes Verständnis

28.08.2025 05:00

Warum das wichtig ist

Relevant fuer Leserinnen und Leser, die KI nicht nur verfolgen, sondern einordnen wollen: Der Beitrag zeigt, was sich bei Große Sprachmodelle, Slash-Muster konkret verschiebt und welche Folgen das fuer Nutzung, Produkte oder Entscheidungen haben kann. Ausgangspunkt ist die Quelle arXiv – cs.LG.

Quellenklarheit

Quelle: arXiv – cs.LG
Original: Zum Ursprungsbeitrag
Website: arXiv – cs.LG

Themenradar

Themen folgen

Große Sprachmodelle

Slash-Muster

Slash-Dominant Heads

RoPE

Morning Briefing

Diese Themen im Briefing verfolgen

Wenn dich genau diese Themen wieder interessieren werden, mach daraus einen festen Morgen-Slot statt einzelner Zufallsklicks.

Briefing mit Fokus konfigurieren →

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Aehnliche Entwicklungen zum Weiterlesen

🍪 Cookie-Einstellungen