Forschung
GAVEL: Regelbasierte Sicherheit durch Aktivierungsüberwachung
In der Forschung zu großen Sprachmodellen (LLMs) gewinnt die Überwachung von Aktivierungen zunehmend an Bedeutung, um schädliches Verhalten…
arXiv – cs.AI