JudgeBoard: Benchmark für kleine Sprachmodelle in Rechen‑ und Wissensaufgaben
Die neue Plattform JudgeBoard bietet ein innovatives Verfahren, um die Richtigkeit von Antworten kleiner Sprachmodelle (SLMs) direkt zu bewerten, ohne auf externe Vergleichsdaten zurückgreifen zu müssen. Durch das direk…