AdvJudge‑Zero: Kontroll‑Token kippen LLM‑Judges
In modernen Post‑Training‑Pipelines wie RLHF, DPO und RLAIF spielen Reward‑Modelle und LLM‑as‑a‑Judge‑Systeme eine zentrale Rolle. Sie liefern skalare Rückmeldungen und binäre Entscheidungen, die die Auswahl von Modellen und das Reinforcement‑Learning‑Fine‑Tuning steuern.