57-Token-Vorhersagefenster in Sprachmodellen: Energiesystem zur Fehlverhaltenssteuerung
Eine neue Veröffentlichung auf arXiv liefert einen bahnbrechenden Ansatz zur Steuerung von Fehlverhalten in großen Sprachmodellen. Die Autoren zeigen, dass herkömmliche Sicherheitsmaßnahmen – wie das Beobachten von Verhalten nach dem Training – häufig keine frühzeitigen Signale liefern, wenn ein Mo…