Forschung arXiv – cs.AI

LLM-WikiRace: Benchmark für Langzeitplanung und Weltwissen in KI

Mit dem neuen Benchmark LLM-WikiRace wird die Fähigkeit großer Sprachmodelle (LLMs) getestet, komplexe Planungsaufgaben zu lösen und dabei ihr Wissen über die reale Welt anzuwenden. Das Ziel besteht darin, von einer Sta…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Mit dem neuen Benchmark LLM-WikiRace wird die Fähigkeit großer Sprachmodelle (LLMs) getestet, komplexe Planungsaufgaben zu lösen und dabei ihr Wissen über die reale Welt…
  • Das Ziel besteht darin, von einer Startseite aus mithilfe von Wikipedia‑Links schrittweise zur Zielseite zu gelangen – ein Test, der Vorausplanung und das Verstehen von…
  • In einer umfassenden Evaluation wurden sowohl Open‑Source‑ als auch proprietäre Modelle wie Gemini‑3, GPT‑5 und Claude Opus 4.5 eingesetzt.

Mit dem neuen Benchmark LLM-WikiRace wird die Fähigkeit großer Sprachmodelle (LLMs) getestet, komplexe Planungsaufgaben zu lösen und dabei ihr Wissen über die reale Welt anzuwenden. Das Ziel besteht darin, von einer Startseite aus mithilfe von Wikipedia‑Links schrittweise zur Zielseite zu gelangen – ein Test, der Vorausplanung und das Verstehen von Zusammenhängen zwischen Konzepten erfordert.

In einer umfassenden Evaluation wurden sowohl Open‑Source‑ als auch proprietäre Modelle wie Gemini‑3, GPT‑5 und Claude Opus 4.5 eingesetzt. Auf der einfachen Schwierigkeitsstufe erzielen die Modelle superhuman Ergebnisse, während die Leistung bei der harten Variante stark abfällt. Das bestperformende Modell, Gemini‑3, erreicht lediglich 23 % Erfolgsrate bei den anspruchsvollsten Aufgaben.

Die Analyse zeigt, dass Weltwissen zwar ein wichtiger Erfolgsfaktor ist, jedoch nur bis zu einem gewissen Punkt. Ab diesem Schwellenwert bestimmen Planung und langfristiges Denken die Ergebnisse. Trajektorien‑Analysen verdeutlichen, dass selbst die stärksten Modelle nach einem Fehlschlag häufig in Schleifen geraten, anstatt ihre Strategie neu zu planen.

LLM-WikiRace bietet damit ein einfaches, aber aufschlussreiches Testfeld, das die aktuellen Grenzen von KI‑Systemen im Bereich des logischen Denkens aufzeigt. Der Code sowie die Leaderboard‑Daten stehen unter https://llmwikirace.github.io zur Verfügung.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?
Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.