Binary BPE: Neue Tokenizer für effiziente Binäranalyse auf allen Plattformen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Forscher haben die Byte‑Pair‑Encoding‑Methode (BPE) auf Binärdateien übertragen und damit einen entscheidenden Engpass in der Analyse von ausführbaren Dateien überwunden. Durch die Ersetzung einzelner Bytes durch mehrbyteige Token wird der Kontext, den Transformer‑Modelle nutzen können, deutlich erweitert.

Die neu entwickelten Binary‑BPE‑Tokenizer wurden mit einem umfangreichen Korpus trainiert, der Binärdateien aus Linux, Windows, macOS, Android und sogar Malware umfasst. Für jede Plattform wurden Token‑Vokabulare in den Größen 4 K, 8 K, 16 K, 32 K und 64 K erstellt, sodass sowohl kleine Edge‑Geräte als auch leistungsstarke Rechenzentren optimal bedient werden können.

In Tests mit unkomprimierten Executables wie ELF, PE und Mach‑O konnten die Binary‑BPE‑Tokenizer bis zu 2‑3 mal mehr Binärinhalte innerhalb eines festen Transformer‑Kontextfensters verarbeiten als rohe Bytes. Das bedeutet mehr Informationen pro Token, schnellere Analyse und effizientere Einsatzmöglichkeiten bei Malware‑Erkennung, Reverse Engineering und Optimierung.

Alle trainierten Tokenizer sind auf HuggingFace verfügbar und stellen ein vollständig offenes, plug‑and‑play‑Fundament für binärorientierte Sprachmodelle und kontexteffiziente Agenten‑Tools dar. Entwickler können die Modelle sofort in ihre Pipelines integrieren und von einer verbesserten Leistungsfähigkeit profitieren.

Ähnliche Artikel