RubricEval: Benchmark zur Meta‑Bewertung von LLM‑Judges bei Anweisungsbefolgung
In der Welt der großen Sprachmodelle (LLMs) hat die rubrikbasierte Bewertung von Anweisungen einen festen Platz eingenommen. Doch wie zuverlässig sind diese Bewertungen wirklich? Die neue Studie „RubricEval“ liefert die Antwort: Ein umfassender Benchmark, der die Genauigkeit von LLM‑Judges auf Rubr…