SPAN: Benchmark für interkalenderische Zeitlogik von LLMs

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Wissenschaftler haben SPAN ins Leben gerufen, ein neues Benchmark, das große Sprachmodelle (LLMs) dazu herausfordert, Zeitfragen über verschiedene Kalendersysteme hinweg zu lösen. Dabei müssen die Modelle sowohl innerhalb eines Kalenders als auch zwischen unterschiedlichen Kalendersystemen umrechnen.

SPAN umfasst zehn Richtungen der interkalenderischen Zeitlogik, zwei Arten des Denkens und zwei Frageformate, die sich über sechs verschiedene Kalendersysteme erstrecken. Um die Bewertung zeitvariabel und frei von Datenkontamination zu gestalten, wurde ein prozessbasiertes Protokoll entwickelt, das dynamische Instanzen generiert und die Tests auf ein vom Nutzer festgelegtes gregorianisches Datum ausrichtet.

In umfangreichen Experimenten wurden sowohl offene als auch geschlossene SOTA-LLMs auf Daten aus einem Zeitraum von 1960 bis 2060 getestet. Die durchschnittliche Genauigkeit lag bei lediglich 34,5 % und kein Modell erreichte die 80‑Prozent-Marke – ein deutliches Signal dafür, dass die Aufgabe noch nicht gelöst ist.

Eine detaillierte Analyse zeigte zwei Hauptprobleme: die „Future‑Date Degradation“, bei der Modelle bei zukünftigen Daten schlechter abschneiden, und die „Calendar Asymmetry Bias“, bei dem Modelle bei bestimmten Kalendersystemen benachteiligt sind.

Um diese Schwächen zu überwinden, wurde ein LLM‑gestützter Time Agent entwickelt, der auf tool‑unterstützter Code‑Generierung basiert. Der Agent erzielte eine durchschnittliche Genauigkeit von 95,31 %, was ihn deutlich über den bisherigen Baselines platzieren lässt und das Potenzial von Code‑Generierung für die Verbesserung der interkalenderischen Zeitlogik unterstreicht.

Die Ergebnisse von SPAN und dem Time Agent zeigen, dass noch erheblicher Forschungsbedarf besteht, um LLMs zeit- und kulturangepasst zu machen. Die Autoren hoffen, dass ihre Arbeit weitere Anstrengungen in diesem spannenden Forschungsfeld anregt.

Ähnliche Artikel