Forschung
Neues Framework für Reward Modeling: Ordinale Likert-Skala als Grundlage
In der Welt der großen Sprachmodelle ist das Reward‑Modeling entscheidend, um die Systeme an menschliche Vorlieben anzupassen. Bisher fehlt…
arXiv – cs.LG