EcoSpa: Effizientes Transformer‑Training durch gekoppelte Sparsität
Transformers bilden heute das Rückgrat moderner KI‑Modelle, doch ihre enormen Rechen- und Speicheranforderungen stellen Systeme vor große Herausforderungen. Sparse‑Training kann die Effizienz steigern, doch bisherige Ansätze vernachlässigen die engen Wechselwirkungen zwischen den Gewichtsmatrizen, die in Aufmerksamkeits‑ und Feed‑Forward‑Schichten multipliziert werden. Das führt bei hohen Sparsitätsgraden zu Leistungseinbußen.