GAVEL: Regelbasierte Sicherheit durch Aktivierungsüberwachung
In der Forschung zu großen Sprachmodellen (LLMs) gewinnt die Überwachung von Aktivierungen zunehmend an Bedeutung, um schädliches Verhalten frühzeitig zu erkennen und zu verhindern. Traditionelle Ansätze, die auf umfang…