Forschung
Neues Benchmark deckt Schwächen großer Sprachmodelle im Mathematik‑Denken auf
Wissenschaftler haben ein neues Benchmark namens ReasoningMath‑Plus veröffentlicht, das 150 sorgfältig ausgewählte Aufgaben enthält, die sp…
arXiv – cs.AI