LinearARD: Effiziente Distillation zur Wiederherstellung von RoPE in LLMs
Die Erweiterung von Kontextfenstern in großen Sprachmodellen wird üblicherweise durch Skalierung der Positionskodierungen und anschließendes leichtgewichtiges Continual Pre‑Training (CPT) realisiert. Dieses Vorgehen kan…