Effiziente Schätzung von LLM-Judges trotz Rauschen
Große Sprachmodelle (LLMs) werden zunehmend als automatische Prüfer für generative KI‑Ausgaben eingesetzt – ein Ansatz, der als „LLM‑als‑Richter“ bekannt ist. In der Praxis liefern diese Modelle jedoch nicht immer perfekte Bewertungen, sondern zeigen systematische, nicht zufällige Fehler.