Neues Verfahren entdeckt Textangriffe auf Transformer durch Repräsentationsstabilität
In einer aktuellen Veröffentlichung auf arXiv wird ein neues, modellunabhängiges Verfahren vorgestellt, das sich auf die Stabilität von Wortrepräsentationen konzentriert, um bösartige Textangriffe zu erkennen. Das System, genannt Representation Stability (RS), bewertet, wie stark die Einbettungen eines Textes verändert werden, wenn wichtige Wörter maskiert werden.