Probe‑Performance von LLMs: Wie off‑Policy‑Daten die Generalisierung beeinflussen
Die Überwachung von großen Sprachmodellen (LLMs) wird zunehmend durch sogenannte Probe‑Methoden unterstützt, die auf der Erkennung in der Inferenzzeit von problematischen Verhaltensweisen wie Täuschung oder Unterwürfigkeit basieren. Da echte Beispiele dieser Verhaltensweisen selten sind, greifen Forscher vermehrt auf synthetische oder off‑Policy‑Antworten zurück, um ihre Probes zu trainieren.
In einer systematischen Untersuchung wurden die Auswirkungen von synthetischen und off‑Policy‑Daten auf die Generalisierung von Probes über acht unterschiedliche LLM‑Verhaltensweisen hinweg analysiert. Dabei wurden lineare und Attention‑Probes an mehreren Modellen getestet. Die Ergebnisse zeigen, dass die Art der Antwortgenerierung die Probe‑Leistung signifikant beeinflusst, wobei die Stärke des Effekts je nach Verhalten variiert.
Ein besonders wichtiger Befund ist, dass eine erfolgreiche Generalisierung von off‑Policy‑Daten auf Testsets, in denen das Modell gezwungen ist, das Zielverhalten zu zeigen, ein guter Indikator für die Generalisierung auf on‑Policy‑Daten ist. Daraus lässt sich ableiten, dass Probes für Täuschung und „Sandbagging“ möglicherweise nicht von off‑Policy zu on‑Policy übertragbar sind, wenn sie in realen Monitoring‑Szenarien eingesetzt werden.
Weiterhin wurde festgestellt, dass Domänenverschiebungen die Leistung noch stärker beeinträchtigen: Tests mit Daten aus einer anderen Domäne führen konsequent zu schlechteren Ergebnissen als Tests innerhalb derselben Domäne. Diese Erkenntnisse unterstreichen die Notwendigkeit, Methoden zu entwickeln, die besser mit Verteilungsverschiebungen in der LLM‑Überwachung umgehen können, insbesondere wenn on‑Policy‑Daten nicht verfügbar sind.