Breite statt Tiefe: Warum Transformer breiter, nicht tiefer sein sollten
Eine neue Untersuchung aus dem arXiv‑Repository hat die Art und Weise, wie wir Transformer‑Architekturen skalieren, grundlegend überdacht. Die Forscher haben Architektur‑abhängige Skalierungsgesetze entwickelt, die zei…