Gerade Köpfe beheben ungerade Fehler: Entdeckung in Transformer‑Attention
In einer neuen Studie wurde ein formatabhängiger Fehler in der Sprachmodell‑Architektur Llama‑3.1‑8B‑Instruct aufgedeckt: Das Modell bewertet die Zahl „9.11“ fälschlicherweise als größer als „9.8“, wenn die Eingabe im C…