SPAN: Benchmark für interkalenderische Zeitlogik von LLMs
Wissenschaftler haben SPAN ins Leben gerufen, ein neues Benchmark, das große Sprachmodelle (LLMs) dazu herausfordert, Zeitfragen über verschiedene Kalendersysteme hinweg zu lösen. Dabei müssen die Modelle sowohl innerhalb eines Kalenders als auch zwischen unterschiedlichen Kalendersystemen umrechnen.