RepIt: Zielgerichtete Steuerung von Sprachmodellen durch isolierte Konzepte
In der Forschung zur Aktivierungssteuerung großer Sprachmodelle (LLMs) stoßen aktuelle Methoden häufig auf unerwünschte Nebeneffekte. Um diese Probleme zu lösen, hat ein neues Verfahren namens RepIt entwickelt, das reine Konzeptvektoren isoliert und so gezielte Eingriffe ermöglicht. RepIt arbeitet mit minimalem Datenaufwand und ist auf fünf führende LLMs anwendbar.