<p>POLIS-Bench: Neue Maßstäbe für LLMs in bilingualen Regierungsaufgaben</p> <p>Mit POLIS-Bench wird erstmals ein systematischer, rigoroser Testrahmen für große Sprachmodelle (LLMs) in bilingualen Regierungsaufgaben vorgestellt. Der Benchmark hebt sich durch drei wesentliche Neuerungen ab: Erstens ein aktueller, umfangreicher bilingualer Politiktextkorpus, der die Relevanz für die aktuelle Verwaltungspraxis sicherstellt. Zweitens drei speziell entwickelte, situationsbasierte Aufgaben – Klauselabruf & -inter

arXiv – cs.AI Original
Anzeige