LinearARD: Effiziente Distillation zur Wiederherstellung von RoPE in LLMs
Die Erweiterung von Kontextfenstern in großen Sprachmodellen wird üblicherweise durch Skalierung der Positionskodierungen und anschließendes leichtgewichtiges Continual Pre‑Training (CPT) realisiert. Dieses Vorgehen kan…
- Die Erweiterung von Kontextfenstern in großen Sprachmodellen wird üblicherweise durch Skalierung der Positionskodierungen und anschließendes leichtgewichtiges Continual…
- Dieses Vorgehen kann jedoch die ursprünglichen Fähigkeiten des Modells beeinträchtigen und die Leistung bei Standard‑Benchmarks für kurze Texte senken.
- LinearARD bietet eine selbst‑Distillations‑Methode, die Rotary Position Embeddings (RoPE) in Schüler‑Modellen wiederherstellt, indem sie die Aufmerksamkeit‑Struktur eine…
Die Erweiterung von Kontextfenstern in großen Sprachmodellen wird üblicherweise durch Skalierung der Positionskodierungen und anschließendes leichtgewichtiges Continual Pre‑Training (CPT) realisiert. Dieses Vorgehen kann jedoch die ursprünglichen Fähigkeiten des Modells beeinträchtigen und die Leistung bei Standard‑Benchmarks für kurze Texte senken.
LinearARD bietet eine selbst‑Distillations‑Methode, die Rotary Position Embeddings (RoPE) in Schüler‑Modellen wiederherstellt, indem sie die Aufmerksamkeit‑Struktur eines eingefrorenen RoPE‑Lehrers nutzt. Anstatt versteckte Zustände zu kopieren, richtet LinearARD die zeilenweisen Verteilungen der dichten Q/Q, K/K und V/V Selbst‑Beziehungsmatrizen aus und überwacht so direkt die Dynamik der Aufmerksamkeit.
Um die quadratische Speicherlast von n×n‑Beziehungskarten zu umgehen, führt LinearARD einen linearen Speicher‑Kernel ein. Dieser nutzt pro Token Log‑Sum‑Exp‑Statistiken und integriert die Rekombination von Logits in den Rückwärtsdurchlauf, um exakte Kullback‑Leibler‑Divergenz und Gradienten zu berechnen.
In Experimenten mit LLaMA2‑7B, das von 4 K auf 32 K Tokens erweitert wurde, rekonstruiert LinearARD 98,3 % der Kurz‑Text‑Leistung der führenden Baselines und übertrifft sie gleichzeitig bei Lang‑Kontext‑Tests. Das Besondere: Der Ansatz benötigt lediglich 4,25 M Trainings‑Tokens, während vergleichbare Methoden wie LongReD und CPT bis zu 256 M Tokens erfordern.
Der Quellcode ist frei verfügbar unter https://github.com/gracefulning/LinearARD.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.