Neues Benchmark deckt Schwächen großer Sprachmodelle im Mathematik‑Denken auf
Wissenschaftler haben ein neues Benchmark namens ReasoningMath‑Plus veröffentlicht, das 150 sorgfältig ausgewählte Aufgaben enthält, die speziell darauf ausgelegt sind, die strukturelle Denkfähigkeit von großen Sprachmo…