Jede Kopf zählt: Sparsame Aufmerksamkeit ohne Performance‑Kompromiss
Die Entwicklung großer Sprachmodelle (LLMs) wurde lange Zeit durch ein grundlegendes Dilemma im Kernmechanismus der Aufmerksamkeitsberechnung gehemmt: die bemerkenswerte Ausdruckskraft der Multi‑Head‑Attention geht mit…