Probe‑Performance von LLMs: Wie off‑Policy‑Daten die Generalisierung beeinflussen
Die Überwachung von großen Sprachmodellen (LLMs) wird zunehmend durch sogenannte Probe‑Methoden unterstützt, die auf der Erkennung in der Inferenzzeit von problematischen Verhaltensweisen wie Täuschung oder Unterwürfigk…