Probe‑Performance von LLMs: Wie off‑Policy‑Daten die Generalisierung beeinflussen
Die Überwachung von großen Sprachmodellen (LLMs) wird zunehmend durch sogenannte Probe‑Methoden unterstützt, die auf der Erkennung in der Inferenzzeit von problematischen Verhaltensweisen wie Täuschung oder Unterwürfigkeit basieren. Da echte Beispiele dieser Verhaltensweisen selten sind, greifen Forscher vermehrt auf synthetische oder off‑Policy‑Antworten zurück, um ihre Probes zu trainieren.