Tokenisierung von Assemblersprache: entscheidend für LLMs & Transformer
Eine neue Studie aus dem arXiv-Repository beleuchtet die bislang wenig erforschte Rolle der Tokenisierung bei der Analyse von Assemblersprache. Dabei wird gezeigt, wie die Wahl des Tokenizers die Grundstruktur von Code‑Vokabularen, die semantische Abdeckung und letztlich die Leistung in nachgelagerten Aufgaben beeinflusst.