KI-Modelle prüfen PRISMA 2020: 95 % Sensitivität bei strukturierten Checklisten

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In einer neuen Studie wurde gezeigt, dass große Sprachmodelle (LLMs) die Einhaltung der PRISMA‑2020‑Leitlinie bei systematischen Reviews erheblich erleichtern können. Durch die Bereitstellung von strukturierten Checklisten in Form von Markdown, JSON, XML oder einfachem Text erreichten die Modelle eine Genauigkeit von 78,7 % bis 79,7 %, während die Genauigkeit bei der Analyse von Manuskripten allein nur 45,21 % betrug.

Für die Untersuchung wurde ein urheberrechtskonformes Benchmark-Datensatz mit 108 Creative‑Commons-lizenzierten systematischen Reviews erstellt. In einer Entwicklungsgruppe wurden zehn verschiedene LLMs getestet, wobei die Genauigkeit zwischen 70,6 % und 82,8 % lag. Die Ergebnisse zeigten, dass die Wahl des Eingabeformats keinen signifikanten Einfluss auf die Leistung hatte (p > 0,9).

Das Open‑Weight-Modell Qwen3‑Max erwies sich als besonders leistungsfähig. Bei einer erweiterten Evaluation mit 120 Reviews erreichte es eine Sensitivität von 95,1 % und eine Spezifität von 49,3 %. Diese Zahlen verdeutlichen, dass strukturierte Checklisten die Leistungsfähigkeit von KI-basierten PRISMA‑Bewertungen deutlich steigern.

Obwohl die KI-Modelle beeindruckende Ergebnisse liefern, betonen die Autoren, dass eine abschließende Überprüfung durch menschliche Experten weiterhin unerlässlich ist, bevor Entscheidungen im Editorialprozess getroffen werden. Die Kombination aus KI-Unterstützung und fachlicher Expertise bietet somit einen vielversprechenden Ansatz zur Optimierung der Peer‑Review‑Praxis.

Ähnliche Artikel