Forschung arXiv – cs.AI

SPAN: Benchmark für interkalenderische Zeitlogik von LLMs

Wissenschaftler haben SPAN ins Leben gerufen, ein neues Benchmark, das große Sprachmodelle (LLMs) dazu herausfordert, Zeitfragen über verschiedene Kalendersysteme hinweg zu lösen. Dabei müssen die Modelle sowohl innerha…

≈2 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Wissenschaftler haben SPAN ins Leben gerufen, ein neues Benchmark, das große Sprachmodelle (LLMs) dazu herausfordert, Zeitfragen über verschiedene Kalendersysteme hinweg…
  • Dabei müssen die Modelle sowohl innerhalb eines Kalenders als auch zwischen unterschiedlichen Kalendersystemen umrechnen.
  • SPAN umfasst zehn Richtungen der interkalenderischen Zeitlogik, zwei Arten des Denkens und zwei Frageformate, die sich über sechs verschiedene Kalendersysteme erstrecken.

Wissenschaftler haben SPAN ins Leben gerufen, ein neues Benchmark, das große Sprachmodelle (LLMs) dazu herausfordert, Zeitfragen über verschiedene Kalendersysteme hinweg zu lösen. Dabei müssen die Modelle sowohl innerhalb eines Kalenders als auch zwischen unterschiedlichen Kalendersystemen umrechnen.

SPAN umfasst zehn Richtungen der interkalenderischen Zeitlogik, zwei Arten des Denkens und zwei Frageformate, die sich über sechs verschiedene Kalendersysteme erstrecken. Um die Bewertung zeitvariabel und frei von Datenkontamination zu gestalten, wurde ein prozessbasiertes Protokoll entwickelt, das dynamische Instanzen generiert und die Tests auf ein vom Nutzer festgelegtes gregorianisches Datum ausrichtet.

In umfangreichen Experimenten wurden sowohl offene als auch geschlossene SOTA-LLMs auf Daten aus einem Zeitraum von 1960 bis 2060 getestet. Die durchschnittliche Genauigkeit lag bei lediglich 34,5 % und kein Modell erreichte die 80‑Prozent-Marke – ein deutliches Signal dafür, dass die Aufgabe noch nicht gelöst ist.

Eine detaillierte Analyse zeigte zwei Hauptprobleme: die „Future‑Date Degradation“, bei der Modelle bei zukünftigen Daten schlechter abschneiden, und die „Calendar Asymmetry Bias“, bei dem Modelle bei bestimmten Kalendersystemen benachteiligt sind.

Um diese Schwächen zu überwinden, wurde ein LLM‑gestützter Time Agent entwickelt, der auf tool‑unterstützter Code‑Generierung basiert. Der Agent erzielte eine durchschnittliche Genauigkeit von 95,31 %, was ihn deutlich über den bisherigen Baselines platzieren lässt und das Potenzial von Code‑Generierung für die Verbesserung der interkalenderischen Zeitlogik unterstreicht.

Die Ergebnisse von SPAN und dem Time Agent zeigen, dass noch erheblicher Forschungsbedarf besteht, um LLMs zeit- und kulturangepasst zu machen. Die Autoren hoffen, dass ihre Arbeit weitere Anstrengungen in diesem spannenden Forschungsfeld anregt.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

SPAN
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Benchmark
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Große Sprachmodelle
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen