Forschung
LLM-gestützte Methode entdeckt versteckte Biases in Reward-Modellen
In der Post-Training-Phase von großen Sprachmodellen (LLMs) spielen Reward‑Modelle (RMs) eine zentrale Rolle. Frühere Untersuchungen haben…
arXiv – cs.LG