Forschung
Erklärung des Attention‑Sinks: Warum LLMs den ersten Token dominieren
In großen Sprachmodellen kommt es häufig vor, dass ein einzelner Token unverhältnismäßig viel Aufmerksamkeit erhält – ein Phänomen, das als…
arXiv – cs.LG