RubricEval: Benchmark zur Meta‑Bewertung von LLM‑Judges bei Anweisungsbefolgung
In der Welt der großen Sprachmodelle (LLMs) hat die rubrikbasierte Bewertung von Anweisungen einen festen Platz eingenommen. Doch wie zuverlässig sind diese Bewertungen wirklich? Die neue Studie „RubricEval“ liefert die…