Forschung arXiv – cs.AI

LinearARD: Effiziente Distillation zur Wiederherstellung von RoPE in LLMs

02.04.2026 04:00 • ≈1 Min. Lesezeit • Originalquelle

#Kontextfenster #Positionskodierung #Continual Pre‑Training #LinearARD #Rotary Position Embeddings #Selbst‑Distillation #Kullback‑Leibler‑Divergenz

Kernaussagen

Das nimmst du aus dem Beitrag mit

Die Erweiterung von Kontextfenstern in großen Sprachmodellen wird üblicherweise durch Skalierung der Positionskodierungen und anschließendes leichtgewichtiges Continual…
Dieses Vorgehen kann jedoch die ursprünglichen Fähigkeiten des Modells beeinträchtigen und die Leistung bei Standard‑Benchmarks für kurze Texte senken.
LinearARD bietet eine selbst‑Distillations‑Methode, die Rotary Position Embeddings (RoPE) in Schüler‑Modellen wiederherstellt, indem sie die Aufmerksamkeit‑Struktur eine…

Die Erweiterung von Kontextfenstern in großen Sprachmodellen wird üblicherweise durch Skalierung der Positionskodierungen und anschließendes leichtgewichtiges Continual Pre‑Training (CPT) realisiert. Dieses Vorgehen kann jedoch die ursprünglichen Fähigkeiten des Modells beeinträchtigen und die Leistung bei Standard‑Benchmarks für kurze Texte senken.

LinearARD bietet eine selbst‑Distillations‑Methode, die Rotary Position Embeddings (RoPE) in Schüler‑Modellen wiederherstellt, indem sie die Aufmerksamkeit‑Struktur eines eingefrorenen RoPE‑Lehrers nutzt. Anstatt versteckte Zustände zu kopieren, richtet LinearARD die zeilenweisen Verteilungen der dichten Q/Q, K/K und V/V Selbst‑Beziehungsmatrizen aus und überwacht so direkt die Dynamik der Aufmerksamkeit.

Um die quadratische Speicherlast von n×n‑Beziehungskarten zu umgehen, führt LinearARD einen linearen Speicher‑Kernel ein. Dieser nutzt pro Token Log‑Sum‑Exp‑Statistiken und integriert die Rekombination von Logits in den Rückwärtsdurchlauf, um exakte Kullback‑Leibler‑Divergenz und Gradienten zu berechnen.

In Experimenten mit LLaMA2‑7B, das von 4 K auf 32 K Tokens erweitert wurde, rekonstruiert LinearARD 98,3 % der Kurz‑Text‑Leistung der führenden Baselines und übertrifft sie gleichzeitig bei Lang‑Kontext‑Tests. Das Besondere: Der Ansatz benötigt lediglich 4,25 M Trainings‑Tokens, während vergleichbare Methoden wie LongReD und CPT bis zu 256 M Tokens erfordern.

Der Quellcode ist frei verfügbar unter https://github.com/gracefulning/LinearARD.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?

Ist das eher Signal, Produkt oder nur kurzfristiger Hype?

Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Kontextfenster

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Positionskodierung

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Continual Pre‑Training

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

arXiv – cs.AI

Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.

Lernpfad

Wenn du nach dieser Meldung weiterlernen willst

Themen-Hub

Kontextfenster systematisch verfolgen

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Archiv

Weitere Beispiele zu Kontextfenster

Nutze das Archiv, um Muster, Wiederholungen und Trendlinien innerhalb des Themas zu sehen.

Im Themen-Cluster weiter

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Themen-Hub

Kontextfenster

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

1 Signale in 7 Tagen • 17 Artikel im Hub

Hub oeffnen →

Nachbar-Hub

LLM

Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.

2 gemeinsame Signale

Nachbar-Hub

Sprachmodelle

Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.

2 gemeinsame Signale

Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen

arXiv – cs.AI

Context Cartography: Strukturierte Steuerung des Kontextraums in LLM-Systemen

24.03.2026 04:00

arXiv – cs.AI

LLMs meistern Tool-Ausgabe: Neue Methode verhindert Kontextfenster-Overflow

01.12.2025 05:00

arXiv – cs.LG

PaCoRe: Parallel koordiniertes Denken steigert Testzeitrechenleistung massiv

12.01.2026 05:00

arXiv – cs.AI

Neues generatives Gedächtnis: GSW verbessert RAG um 20 %

12.11.2025 05:00

arXiv – cs.AI

Darwinian Memory: Selbstregulierendes Gedächtnissystem steigert GUI-Agenten

02.02.2026 05:00

arXiv – cs.AI

Neue Metriken aus Informationstheorie und Thermodynamik messen LLM-Genauigkeit

08.12.2025 05:00

Warum das wichtig ist

Relevant fuer Leserinnen und Leser, die KI nicht nur verfolgen, sondern einordnen wollen: Der Beitrag zeigt, was sich bei Kontextfenster, Positionskodierung konkret verschiebt und welche Folgen das fuer Nutzung, Produkte oder Entscheidungen haben kann. Ausgangspunkt ist die Quelle arXiv – cs.AI.

Quellenklarheit

Quelle: arXiv – cs.AI
Original: Zum Ursprungsbeitrag
Website: arXiv – cs.AI

Themenradar

Themen folgen

Kontextfenster

Positionskodierung

Continual Pre‑Training

LinearARD

Morning Briefing

Diese Themen im Briefing verfolgen

Wenn dich genau diese Themen wieder interessieren werden, mach daraus einen festen Morgen-Slot statt einzelner Zufallsklicks.

Briefing mit Fokus konfigurieren →

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Aehnliche Entwicklungen zum Weiterlesen

🍪 Cookie-Einstellungen