AdvJudge‑Zero: Kontroll‑Token kippen LLM‑Judges
In modernen Post‑Training‑Pipelines wie RLHF, DPO und RLAIF spielen Reward‑Modelle und LLM‑as‑a‑Judge‑Systeme eine zentrale Rolle. Sie liefern skalare Rückmeldungen und binäre Entscheidungen, die die Auswahl von Modelle…