Forschung arXiv – cs.AI

Neue Methode erkennt zeitliche Datenlecks in LLM-Backtests

Um die Fähigkeit von Sprachmodellen (LLMs) zu prüfen, zukünftige Ereignisse vorherzusagen, ist ein sogenanntes Backtesting erforderlich – die Modelle dürfen nur mit Informationen arbeiten, die bis zu einem festgelegten…

≈2 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Um die Fähigkeit von Sprachmodellen (LLMs) zu prüfen, zukünftige Ereignisse vorherzusagen, ist ein sogenanntes Backtesting erforderlich – die Modelle dürfen nur mit Info…
  • Doch viele LLMs lassen sich unabsichtlich von nachträglichem Wissen beeinflussen, was die Gültigkeit solcher Rücktests untergräbt.
  • In der vorliegenden Arbeit wird ein neues, auf Behauptungen basierendes Verfahren vorgestellt, das diese „zeitliche Datenlecks“ erkennt und quantifiziert.

Um die Fähigkeit von Sprachmodellen (LLMs) zu prüfen, zukünftige Ereignisse vorherzusagen, ist ein sogenanntes Backtesting erforderlich – die Modelle dürfen nur mit Informationen arbeiten, die bis zu einem festgelegten Zeitpunkt verfügbar waren. Doch viele LLMs lassen sich unabsichtlich von nachträglichem Wissen beeinflussen, was die Gültigkeit solcher Rücktests untergräbt.

In der vorliegenden Arbeit wird ein neues, auf Behauptungen basierendes Verfahren vorgestellt, das diese „zeitliche Datenlecks“ erkennt und quantifiziert. Durch die Zerlegung der Modellargumentation in einzelne, atomare Behauptungen und deren Kategorisierung nach zeitlicher Verifizierbarkeit wird anschließend die Shapley‑Wert‑Methode angewandt, um den Beitrag jeder Behauptung zur Endvorhersage zu messen. Das Ergebnis ist der Shapley‑gewichtete Decision‑Critical Leakage Rate (Shapley‑DCLR), ein interpretierbares Maß dafür, wie viel der entscheidenden Logik aus geleakten Informationen stammt.

Aufbauend auf diesem Rahmenwerk präsentiert die Studie TimeSPEC – Time‑Supervised Prediction with Extracted Claims. Dieser Ansatz kombiniert die Generierung von Vorhersagen mit einer kontinuierlichen Überprüfung und erneuten Erzeugung von Behauptungen, um zeitliche Kontamination proaktiv zu filtern. So entstehen Vorhersagen, bei denen jede unterstützende Behauptung eindeutig auf Quellen zurückführbar ist, die vor dem Cut‑off‑Datum existierten.

Die Experimente erstrecken sich über 350 Fälle aus drei unterschiedlichen Bereichen: Vorhersagen von Entscheidungen des US‑Supreme Court, Schätzungen von NBA‑Gehaltszahlungen und Ranglisten von Aktienrenditen. Die Ergebnisse zeigen, dass herkömmliche Prompting‑Baselines erhebliche Datenlecks aufweisen. TimeSPEC reduziert die Shapley‑DCLR signifikant, während die Leistungsfähigkeit der Aufgaben weitgehend erhalten bleibt.

Diese Arbeit liefert einen wichtigen Schritt hin zu verlässlicheren Evaluierungen von LLMs und legt die Grundlage für zukünftige Forschung, die darauf abzielt, die Integrität von Sprachmodellen in zeitkritischen Anwendungen zu gewährleisten.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?
Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.