ORCA-Benchmark zeigt: KI-Modelle scheitern bei Mathematikaufgaben
Der neueste ORCA-Benchmark hat die Grenzen der größten Sprachmodelle offengelegt. Bei einer Reihe von Mathematikaufgaben – von einfachen Rechenoperationen bis zu komplexen Gleichungen – konnten ChatGPT‑5, Gemini 2.5 Flash, Claude Sonnet 4.5, Grok 4 und DeepSeek V3.2 nicht überzeugen.