Neue Benchmarks prüfen, ob KI echte wissenschaftliche Intelligenz besitzt

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Wissenschaftliche KI hat in den letzten Jahren enorme Fortschritte erzielt, doch ein einheitliches Konzept für die Fähigkeit, eigenständig wissenschaftliche Fragestellungen zu konzipieren, zu untersuchen und zu begründen – die sogenannte Scientific General Intelligence (SGI) – fehlt noch. In einer neuen Studie wird SGI anhand eines klaren, praxisorientierten Modells definiert und systematisch bewertet.

Die Autoren stellen SGI als die Fähigkeit dar, über verschiedene wissenschaftliche Disziplinen hinweg eigenständig zu denken, zu planen und zu handeln. Das Modell, das Practical Inquiry Model (PIM) genannt wird, gliedert sich in vier Phasen: Deliberation, Conception, Action und Perception. SGI wird konkretisiert durch vier Aufgaben, die eng an den Arbeitsabläufen echter Wissenschaftler orientiert sind: tiefgehende Forschung, Ideenfindung, trockene und feuchte Experimente sowie experimentelles Denken.

Zur Messung dieser Fähigkeiten wurde SGI‑Bench entwickelt, ein Benchmark mit über 1.000 Expertenkuratierten Aufgaben, die sich an den 125 großen Fragen der Wissenschaft orientieren. Die Ergebnisse zeigen deutliche Schwächen moderner Sprachmodelle: Nur 10 – 20 % der Antworten stimmen exakt mit den erwarteten Ergebnissen überein, die generierten Ideen fehlen oft an Machbarkeit und Detailtiefe, Code wird zwar ausgeführt, liefert aber ungenaue Resultate, Protokolle für feuchte Experimente sind nicht exakt reproduzierbar und multimodale Vergleichsaufgaben bleiben schwierig.

Um diese Lücken zu adressieren, wird ein neuer Ansatz namens Test‑Time Reinforcement Learning (TTRL) vorgestellt. TTRL optimiert bei der Inferenz die Belohnungen für neuartige, retrieval‑gestützte Hypothesen, ohne dass ein Referenzantworten‑Set nötig ist. Die Kombination aus einer klaren Definition, einem praxisnahen Benchmark und innovativen Optimierungsmethoden schafft eine solide Basis für KI‑Systeme, die tatsächlich an wissenschaftlichen Entdeckungen mitwirken können.

Ähnliche Artikel