Forschung
KalshiBench: LLMs zeigen systematisches Übervertrauen bei Vorhersagen
Ein neues Benchmark namens KalshiBench wurde vorgestellt, das die epistemische Kalibrierung großer Sprachmodelle (LLMs) anhand von 300 echt…
arXiv – cs.AI