Neue Technik verbessert Transformer durch gezielte Informationsweiterleitung
In der neuesten Forschung zu Decoder‑Only‑Transformern wird gezeigt, dass die Art und Weise, wie Informationen durch das Modell fließen, entscheidend für die Leistung ist. Durch das causale Masking entstehen nicht nur direkte Aufmerksamkeitspfade zwischen Tokens, sondern auch indirekte Wege, die über Zwischentoken laufen – diese werden als „Runways“ bezeichnet.