Starke Lotterie-Ticket-Hypothese gilt auch für Multi-Head-Attention in Transformers
Eine neue theoretische Untersuchung bestätigt, dass die starke Lotterie-Ticket-Hypothese (SLTH) – die besagt, dass leistungsfähige Teilnetzwerke in zufällig initialisierten neuronalen Netzen verborgen sind – auch bei Mu…