Starke Lotterie-Ticket-Hypothese gilt auch für Multi-Head-Attention in Transformers
Eine neue theoretische Untersuchung bestätigt, dass die starke Lotterie-Ticket-Hypothese (SLTH) – die besagt, dass leistungsfähige Teilnetzwerke in zufällig initialisierten neuronalen Netzen verborgen sind – auch bei Multi-Head-Attention (MHA) Mechanismen von Transformers anwendbar ist. Bislang fehlte die theoretische Grundlage für diese Kernkomponente, die in fast allen modernen Transformer‑Architekturen verwendet wird.