CHBench: Neues Benchmark für strategisches Denken von Sprachmodellen
Die Fähigkeit von Sprachmodellen, Spiele zu spielen, gilt als wichtiger Indikator für ihr strategisches Denkvermögen. Traditionelle Messgrößen, die sich auf Nutzenwerte stützen, sind jedoch oft unzuverlässig, weil sie s…