SPAN: Benchmark für interkalenderische Zeitlogik von LLMs

Kernaussagen

Das nimmst du aus dem Beitrag mit

Wissenschaftler haben SPAN ins Leben gerufen, ein neues Benchmark, das große Sprachmodelle (LLMs) dazu herausfordert, Zeitfragen über verschiedene Kalendersysteme hinweg…
Dabei müssen die Modelle sowohl innerhalb eines Kalenders als auch zwischen unterschiedlichen Kalendersystemen umrechnen.
SPAN umfasst zehn Richtungen der interkalenderischen Zeitlogik, zwei Arten des Denkens und zwei Frageformate, die sich über sechs verschiedene Kalendersysteme erstrecken.

Wissenschaftler haben SPAN ins Leben gerufen, ein neues Benchmark, das große Sprachmodelle (LLMs) dazu herausfordert, Zeitfragen über verschiedene Kalendersysteme hinweg zu lösen. Dabei müssen die Modelle sowohl innerhalb eines Kalenders als auch zwischen unterschiedlichen Kalendersystemen umrechnen.

SPAN umfasst zehn Richtungen der interkalenderischen Zeitlogik, zwei Arten des Denkens und zwei Frageformate, die sich über sechs verschiedene Kalendersysteme erstrecken. Um die Bewertung zeitvariabel und frei von Datenkontamination zu gestalten, wurde ein prozessbasiertes Protokoll entwickelt, das dynamische Instanzen generiert und die Tests auf ein vom Nutzer festgelegtes gregorianisches Datum ausrichtet.

In umfangreichen Experimenten wurden sowohl offene als auch geschlossene SOTA-LLMs auf Daten aus einem Zeitraum von 1960 bis 2060 getestet. Die durchschnittliche Genauigkeit lag bei lediglich 34,5 % und kein Modell erreichte die 80‑Prozent-Marke – ein deutliches Signal dafür, dass die Aufgabe noch nicht gelöst ist.

Eine detaillierte Analyse zeigte zwei Hauptprobleme: die „Future‑Date Degradation“, bei der Modelle bei zukünftigen Daten schlechter abschneiden, und die „Calendar Asymmetry Bias“, bei dem Modelle bei bestimmten Kalendersystemen benachteiligt sind.

Um diese Schwächen zu überwinden, wurde ein LLM‑gestützter Time Agent entwickelt, der auf tool‑unterstützter Code‑Generierung basiert. Der Agent erzielte eine durchschnittliche Genauigkeit von 95,31 %, was ihn deutlich über den bisherigen Baselines platzieren lässt und das Potenzial von Code‑Generierung für die Verbesserung der interkalenderischen Zeitlogik unterstreicht.

Die Ergebnisse von SPAN und dem Time Agent zeigen, dass noch erheblicher Forschungsbedarf besteht, um LLMs zeit- und kulturangepasst zu machen. Die Autoren hoffen, dass ihre Arbeit weitere Anstrengungen in diesem spannenden Forschungsfeld anregt.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?

Ist das eher Signal, Produkt oder nur kurzfristiger Hype?

Begriffe zum Einordnen

Kontext ohne Glossar-Suche

SPAN

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Benchmark

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Große Sprachmodelle

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

arXiv – cs.AI

Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.

Lernpfad

Wenn du nach dieser Meldung weiterlernen willst

Themen-Hub

SPAN systematisch verfolgen

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Archiv

Weitere Beispiele zu SPAN

Nutze das Archiv, um Muster, Wiederholungen und Trendlinien innerhalb des Themas zu sehen.

Im Themen-Cluster weiter

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Themen-Hub

SPAN

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

0 Signale in 7 Tagen • 1 Artikel im Hub

Hub oeffnen →

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Aehnliche Entwicklungen zum Weiterlesen

🍪 Cookie-Einstellungen