Neues Verfahren entdeckt Textangriffe auf Transformer durch Repräsentationsstabilität
In einer aktuellen Veröffentlichung auf arXiv wird ein neues, modellunabhängiges Verfahren vorgestellt, das sich auf die Stabilität von Wortrepräsentationen konzentriert, um bösartige Textangriffe zu erkennen. Das Syste…