Forschung
TaperNorm: Normenfrei in Transformers – stabile Trainings und schnellere Inferenz
Ein neues Verfahren namens TaperNorm ersetzt die herkömmliche Normalisierung in Transformer‑Modellen durch einen dynamischen, sample‑unabhä…
arXiv – cs.LG