ORCA-Benchmark zeigt: KI-Modelle scheitern bei Mathematikaufgaben
Der neueste ORCA-Benchmark hat die Grenzen der größten Sprachmodelle offengelegt. Bei einer Reihe von Mathematikaufgaben – von einfachen Rechenoperationen bis zu komplexen Gleichungen – konnten ChatGPT‑5, Gemini 2.5 Flash, Claude Sonnet 4.5, Grok 4 und DeepSeek V3.2 nicht überzeugen.
Die Ergebnisse erinnern an George Orwells „1984“, in dem „zwei plus zwei gleich fünf“ ein Symbol für die Manipulation der Realität war. In der Praxis bedeutet das, dass selbst die fortschrittlichsten KI‑Systeme noch immer Schwierigkeiten haben, präzise mathematische Probleme zu lösen.
Die Testergebnisse zeigen, dass die aktuelle KI‑Forschung noch nicht die notwendige Genauigkeit erreicht hat, um komplexe mathematische Aufgaben zuverlässig zu bewältigen. Für Entwickler und Anwender bedeutet das, dass bei Anwendungen, die exakte Berechnungen erfordern, zusätzliche Prüfungen und menschliche Kontrolle unerlässlich bleiben.