Bewertung von KI-Modellen in Quantenmechanik: Vergleichende Studie
Eine neue Untersuchung aus dem arXiv-Repository hat die Leistungsfähigkeit von 15 großen Sprachmodellen auf Quantenmechanik-Aufgaben systematisch getestet. Die Modelle stammen von fünf führenden Anbietern – OpenAI, Anth…
- Eine neue Untersuchung aus dem arXiv-Repository hat die Leistungsfähigkeit von 15 großen Sprachmodellen auf Quantenmechanik-Aufgaben systematisch getestet.
- Die Modelle stammen von fünf führenden Anbietern – OpenAI, Anthropic, Google, Alibaba und DeepSeek – und decken drei Leistungsstufen ab.
- Die Studie umfasst 20 unterschiedliche Aufgaben, die von mathematischen Ableitungen über kreative Problemstellungen bis hin zu nichtstandardmäßigen Konzepten und numeris…
Eine neue Untersuchung aus dem arXiv-Repository hat die Leistungsfähigkeit von 15 großen Sprachmodellen auf Quantenmechanik-Aufgaben systematisch getestet. Die Modelle stammen von fünf führenden Anbietern – OpenAI, Anthropic, Google, Alibaba und DeepSeek – und decken drei Leistungsstufen ab.
Die Studie umfasst 20 unterschiedliche Aufgaben, die von mathematischen Ableitungen über kreative Problemstellungen bis hin zu nichtstandardmäßigen Konzepten und numerischen Berechnungen reichen. Insgesamt wurden 900 Basisprüfungen sowie 75 mit Tool-Unterstützung durchgeführte Tests durchgeführt.
Die Ergebnisse zeigen eine klare Hierarchie: Flagship-Modelle erzielen durchschnittlich 81 % Genauigkeit, während Mittelstufe-Modelle 77 % und Schnellmodelle 67 % erreichen – ein Unterschied von 4 pp bzw. 14 pp. Besonders stark performen die Modelle bei Ableitungen (92 % durchschnittlich, 100 % bei Flagship), während numerische Berechnungen die größte Herausforderung darstellen (nur 42 % Genauigkeit).
Die Nutzung von Tools verbessert die Leistung bei numerischen Aufgaben im Durchschnitt um 4,4 pp, jedoch variiert die Wirkung stark – von einem Gewinn von 29 pp bis zu einer Verschlechterung von 16 pp. Die Studie hebt damit die Notwendigkeit hervor, Tool-Einsatz kontextabhängig zu evaluieren.
Ein weiterer Schwerpunkt lag auf der Reproduzierbarkeit. Durch drei unabhängige Durchläufe wurde eine durchschnittliche Varianz von 6,3 pp festgestellt. Flagship-Modelle, insbesondere GPT‑5, zeigten dabei keine Varianz, während spezialisierte Modelle mehrere Durchläufe erforderten, um stabile Ergebnisse zu liefern.
Die Autoren stellen einen vollständig automatisierten Benchmark für Quantenmechanik bereit, der die Leistungsunterschiede zwischen den Modellstufen quantifiziert, die Vor- und Nachteile von Tool-Unterstützung analysiert und die Reproduzierbarkeit von KI-Experimenten charakterisiert. Alle Aufgaben, Prüfer und Ergebnisse sind öffentlich zugänglich.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.