KI‑Papiere enthalten immer mehr Fehler – GPT‑5 Checker enthüllt 55 % Zunahme

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Eine neue Studie auf arXiv (2512.05925v1) stellt die Frage, wie viele Fehler in veröffentlichten KI‑Papers tatsächlich vorkommen. Peer‑Reviewed‑Publikationen bilden die Basis für neue Forschung, und wenn Fehler unentdeckt bleiben, können sie sich in der Literatur ausbreiten und die Reproduzierbarkeit von Ergebnissen gefährden.

Um das Problem systematisch anzugehen, entwickelte das Team einen „Paper Correctness Checker“, der auf GPT‑5 basiert. Der Checker konzentriert sich ausschließlich auf objektive Fehler – etwa in Formeln, Ableitungen, Berechnungen, Abbildungen und Tabellen – und ignoriert subjektive Aspekte wie Neuheit oder Schreibqualität.

Die Analyse zeigt, dass die Anzahl der Fehler pro Paper in den letzten Jahren deutlich angestiegen ist: von 3,8 bei NeurIPS 2021 auf 5,9 bei NeurIPS 2025 (55,3 % Zunahme), von 4,1 bei ICLR 2018 auf 5,2 bei ICLR 2025 und von 5,0 bei TMLR 2022/23 auf 5,5 bei TMLR 2025. Experten überprüften 316 potenzielle Fehler, von denen 263 tatsächlich Fehler waren – eine Präzision von 83,2 %.

Obwohl die meisten identifizierten Probleme relativ klein sind, würde ihre Korrektur die Klarheit in der Literatur deutlich verbessern und die Reproduzierbarkeit stärken. Der Checker hat zudem potenziell gravierendere Fehler aufgedeckt, die in zukünftigen Studien weiter untersucht werden sollen.

Ähnliche Artikel