TokenBuncher schützt LLMs vor schädlichem Reinforcement‑Learning‑Fine‑Tuning
Mit dem stetigen Wachstum großer Sprachmodelle steigen auch die Gefahren eines missbräuchlichen Einsatzes durch Fine‑Tuning. Während frühere Untersuchungen vor allem auf das supervised Fine‑Tuning (SFT) als Bedrohung setzten, zeigen neue Analysen, dass Reinforcement Learning (RL) Angreifer effektiver dazu befähigt, Sicherheitsausrichtungen zu umgehen und schädliche Aufgaben zu unterstützen – und das bei gleichem Rechenaufwand.