Forschung arXiv – cs.AI

LinearARD: Effiziente Distillation zur Wiederherstellung von RoPE in LLMs

Die Erweiterung von Kontextfenstern in großen Sprachmodellen wird üblicherweise durch Skalierung der Positionskodierungen und anschließendes leichtgewichtiges Continual Pre‑Training (CPT) realisiert. Dieses Vorgehen kan…

≈1 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Die Erweiterung von Kontextfenstern in großen Sprachmodellen wird üblicherweise durch Skalierung der Positionskodierungen und anschließendes leichtgewichtiges Continual…
  • Dieses Vorgehen kann jedoch die ursprünglichen Fähigkeiten des Modells beeinträchtigen und die Leistung bei Standard‑Benchmarks für kurze Texte senken.
  • LinearARD bietet eine selbst‑Distillations‑Methode, die Rotary Position Embeddings (RoPE) in Schüler‑Modellen wiederherstellt, indem sie die Aufmerksamkeit‑Struktur eine…

Die Erweiterung von Kontextfenstern in großen Sprachmodellen wird üblicherweise durch Skalierung der Positionskodierungen und anschließendes leichtgewichtiges Continual Pre‑Training (CPT) realisiert. Dieses Vorgehen kann jedoch die ursprünglichen Fähigkeiten des Modells beeinträchtigen und die Leistung bei Standard‑Benchmarks für kurze Texte senken.

LinearARD bietet eine selbst‑Distillations‑Methode, die Rotary Position Embeddings (RoPE) in Schüler‑Modellen wiederherstellt, indem sie die Aufmerksamkeit‑Struktur eines eingefrorenen RoPE‑Lehrers nutzt. Anstatt versteckte Zustände zu kopieren, richtet LinearARD die zeilenweisen Verteilungen der dichten Q/Q, K/K und V/V Selbst‑Beziehungs­matrizen aus und überwacht so direkt die Dynamik der Aufmerksamkeit.

Um die quadratische Speicher­last von n×n‑Beziehungs­karten zu umgehen, führt LinearARD einen linearen Speicher‑Kernel ein. Dieser nutzt pro Token Log‑Sum‑Exp‑Statistiken und integriert die Rekombination von Logits in den Rückwärtsdurchlauf, um exakte Kullback‑Leibler‑Divergenz und Gradienten zu berechnen.

In Experimenten mit LLaMA2‑7B, das von 4 K auf 32 K Tokens erweitert wurde, rekonstruiert LinearARD 98,3 % der Kurz‑Text‑Leistung der führenden Baselines und übertrifft sie gleichzeitig bei Lang‑Kontext‑Tests. Das Besondere: Der Ansatz benötigt lediglich 4,25 M Trainings‑Tokens, während vergleichbare Methoden wie LongReD und CPT bis zu 256 M Tokens erfordern.

Der Quellcode ist frei verfügbar unter https://github.com/gracefulning/LinearARD.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Kontextfenster
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Positionskodierung
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Continual Pre‑Training
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen