Forschung
LLM-Juroren: Gute globale Scores, aber Best‑of‑N‑Entscheidungen versagen
In der KI‑Forschung werden große Sprachmodelle häufig als „Juroren“ eingesetzt, um Antworten zu bewerten. Dabei wird die Qualität meist anh…
arXiv – cs.AI