Dispersion Loss reduziert Embedding-Condensation und verbessert kleine Sprachmodelle

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die Weiterentwicklung großer Sprachmodelle (LLMs) führt zu beeindruckenden Leistungen, jedoch steigen die Rechenkosten mit jeder zusätzlichen Parameterzahl. Um die Skalierung besser zu verstehen, untersuchten Forscher die Repräsentationsunterschiede zwischen großen LLMs und ihren kleineren Gegenstücken.

Ihr Ziel war es, die repräsentativen Qualitäten großer Modelle in kleineren Modellen nachzubilden. Dabei entdeckten sie ein geometrisches Phänomen, das sie „Embedding‑Condensation“ nennen: Token‑Embeddings kollabieren in einigen Modellen zu einem schmalen, konusartigen Unterraum.

Die Analyse zeigte, dass kleine Modelle wie GPT‑2 und Qwen3‑0.6B stark von dieser Kondensation betroffen sind, während größere Varianten wie GPT‑2‑XL und Qwen3‑32B dem Phänomen deutlich widerstehen.

Ein weiteres Ergebnis war, dass die gängige Methode der Wissensdistillation – das Übertragen von Wissen von großen auf kleine Modelle – die Embedding‑Condensation nicht zuverlässig mildert.

Um dem entgegenzuwirken, entwickelten die Autoren einen sogenannten Dispersion‑Loss, der die Embeddings während des Trainings gezielt streut. Dieser Verlustterm fördert eine gleichmäßigere Verteilung der Token‑Repräsentationen.

Experimentelle Tests bestätigten, dass der Dispersion‑Loss die Kondensation reduziert, die Dispersionsmuster großer Modelle wiederherstellt und die Leistung über zehn verschiedene Benchmarks hinweg verbessert.

Diese Arbeit liefert damit einen fundierten Ansatz, um die Leistungsfähigkeit kleiner Transformer‑Modelle zu steigern, ohne zusätzliche Parameter einzuführen.

Ähnliche Artikel