JudgeBoard: Benchmark für kleine Sprachmodelle in Rechen‑ und Wissensaufgaben
Die neue Plattform JudgeBoard bietet ein innovatives Verfahren, um die Richtigkeit von Antworten kleiner Sprachmodelle (SLMs) direkt zu bewerten, ohne auf externe Vergleichsdaten zurückgreifen zu müssen. Durch das direkte Abfragen der Modelle wird die Bewertung automatisiert und gleichzeitig präziser, was besonders bei komplexen Rechen‑ und Wissensaufgaben von Vorteil ist.