REAL: Regressionsbewusstes RL optimiert LLMs als automatisierte Richter
In der Welt der großen Sprachmodelle (LLMs) gewinnt die Idee, sie als automatisierte Prüfer einzusetzen, immer mehr an Bedeutung. Dabei bewerten die Modelle die Ausgaben anderer Modelle mit numerischen Punkten – ein Ans…