Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Modellbewertung”
Forschung

Balanced Accuracy: Kennzahl für LLM-Judges – Youden's J-Statistik <p>Eine neue Veröffentlichung auf arXiv präsentiert überzeugende Beweise dafür, dass Balanced Accuracy die optimale Kennzahl zur Bewertung von LLM‑Judges ist. Die Autoren zeigen, dass diese Metrik exakt mit Youden's J‑Statistik verknüpft ist und damit die Auswahl des besten Prüfers für die Modellbewertung theoretisch fundiert.</p> <p>Die Bewertung großer Sprachmodelle beruht häufig auf der Häufigkeit von gewünschten oder unerwünschten Ver

arXiv – cs.LG