LLMs meistern Mathe‑Benchmarks, aber im Kontext bleiben sie hinterher
Ein neuer Beitrag auf arXiv (2601.23048v1) beleuchtet, warum große Sprachmodelle, die bei klassischen Mathe‑Tests wie AIME und MATH‑500 nahezu Expertenleistungen erbringen, in realen, kontextbasierten Aufgaben immer noc…