Preconditioned Attention: Effizienzsteigerung für Transformer
Der Attention-Block ist das Herzstück moderner Transformer-Modelle und ermöglicht die Modellierung globaler Abhängigkeiten zwischen Eingabetoken. Doch unsere theoretische Untersuchung zeigt, dass herkömmliche Attention-…