Mehr Denken führt zu Überbewertung: Argumentieren schadet der Zuverlässigkeit
Eine neue Studie aus dem arXiv-Preprint arXiv:2508.15050v1 zeigt, dass Large Language Models (LLMs), die als Frage‑Antwort‑Tools eingesetzt werden, bei zunehmender Rechenzeit für das Argumentieren weniger zuverlässig in ihrer Selbstbewertung werden. Die Forscher haben die Modelle systematisch auf dem ClimateX‑Datensatz getestet und diesen um Fragen aus den Bereichen Mensch und Planetengesundheit erweitert.
Das Ergebnis widerspricht dem bisher vorherrschenden „Test‑Time‑Scaling“-Paradigma: Während moderne LLMs mit einer begrenzten Rechenzeit bereits 48,7 % Genauigkeit bei der Einschätzung von Expertenvertrauen erreichen, führt ein größerer „Thinking‑Budget“ zu einer systematischen Überbewertung. Je länger die Modelle überdenken, desto schlechter wird ihre Kalibrierung, und die Rendite sinkt sogar negativ, sobald die Rechenzeit über ein moderates Maß hinausgeht.
Im Gegensatz dazu übertrifft die Kombination aus Such‑ und Generierungsfunktionen die reine Argumentation deutlich. Durch das Abrufen relevanter Belege erreichen die Modelle eine Genauigkeit von 89,3 %. Die Ergebnisse legen nahe, dass der Zugang zu Informationen der entscheidende Engpass für eine verbesserte Selbstbewertung bei wissensintensiven Aufgaben ist – nicht die Tiefe des Denkens oder die Rechenzeit.