NExT-Guard: Echtzeit-Streaming-Schutz ohne tokenbasierte Labels
Moderne Sprachmodelle werden zunehmend in Streaming‑Anwendungen eingesetzt, wodurch herkömmliche Nach‑Sicherheitsmaßnahmen versagen – sie können gefährliche Inhalte nicht in Echtzeit blockieren. Traditionelle Streaming‑Sicherheitslösungen basieren auf token‑basiertem, überwachten Training, was jedoch teure Annotationen erfordert und stark überanpasst wird.
Die neue Methode namens NExT‑Guard stellt dieses Paradigma in Frage. Sie nutzt die bereits in gut trainierten Modellen eingebetteten token‑basierten Risikosignale, die in den versteckten Repräsentationen liegen, und setzt auf ein trainingsfreies Konzept. Durch die Überwachung interpretierbarer latenter Merkmale aus Sparse Autoencodern (SAEs) kann NExT‑Guard gefährliche Inhalte in Echtzeit erkennen, ohne zusätzliche Token‑Labels zu benötigen.
Die Autoren verwenden vortrainierte SAEs, die aus öffentlich zugänglichen Basis‑LLMs stammen, was eine kostengünstige und flexible Bereitstellung ermöglicht. In umfangreichen Experimenten übertrifft NExT‑Guard sowohl herkömmliche Nach‑Sicherheitsmaßnahmen als auch token‑basierte Streaming‑Sicherheitsmodelle in Bezug auf Robustheit und Leistung. Das Ergebnis ist ein universelles, skalierbares Paradigma für Echtzeit‑Sicherheit, das die praktische Einführung von Streaming‑Sicherheitslösungen beschleunigt.